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Lời mở đầu 

Giới thiệu về Deep Learning 

Những năm gan đây, AI - Artificial Intelligence (Trí Tuệ Nhân Tạo), và cụ thể hơn là Machine 
Learning (Máy Học) nổi lên như một minh chứng của cuộc cách mạng công nghiệp lần thứ tư (1 - 
động cơ hơi nước, 2 - năng lượng điện, 3 - công nghệ thông tin). AI hiện diện trong mọi lĩnh vực 
của đời sống con người, từ kinh tế, giáo dục, y khoa cho đến những công việc nhà, giải trí hay thậm 
chí là trong quân sự. Những ứng dụng nổi bật trong việc phát triển AI đến từ nhiều lĩnh vực để giải 
quyết nhiều van dé khác nhau. Nhưng những đột phá phần nhiều đến từ Deep Learning (học sâu) - 
một mảng nhỏ đang mở rộng dần đến từng loại công việc, từ đơn giản đến phức tạp. Deep Learning 
đã giúp máy tính thực thi những việc tưởng chừng như không thể vào 15 năm trước: phân loại cả 
ngàn vật thể khác nhau trong các bức ảnh, tự tạo chú thích cho ảnh, bắt chước giọng nói và chữ viết 
của con người, giao tiếp với con người, hay thậm chí cả sáng tác văn, phim, ảnh, âm nhạc. 


ARTIFICIAL INTELLIGENCE 


Programs with the ability to 
learn and reason like humans 


MACHINE LEARNING 
Algorithms with the ability to learn 
without being explicitly programmed 


DEEP LEARNING 
Subset of machine learning 
in which artificial neural 
networks adapt and learn 
from vast amounts of data 


Hình 1: Mối quan hệ AI, ML va DL [3] 


Chúng ta có thé thay Deep learning chỉ là một nhánh nhỏ của Machine Learning. Tuy nhiên trong 
khoảng 5 năm trở lại đây thì Deep Learning được nhắc đến rất nhiều như một xu hướng mới của 
cuộc cách mạng AI. Có một số lý do như sau: 

e Bung nổ dữ liệu: Deep learning khai thác được Big Data (dữ liệu lớn) cùng với độ chính xác 
cao hơn hẳn so với các phương pháp Machine Learning khác trên tập dữ liệu đặc biệt là đối 
với ảnh. Cụ thể là năm 2012, Alex Krizhevsky, Ilya Sutskever, và người hướng dẫn là Hinton, 
submit một model làm bất ngờ những người làm việc trong ngành AI, và sau này là cả thế 
giới khi đạt top-5 error là 16% trong cuộc thi ILSVRC2012. Đây là lần đầu tiên một model 
Artificial Neural Network (ANN) đạt kết quả state-of-the-art (SOTA). 


e Phan cứng phat triển: Sự xuất hiện của GPU GTX 10 series của NVIDIA ra mắt năm 2014 
với hiệu năng tính toán cao cũng như giá thành rẻ có thể tiếp cận với hầu hết với mọi người 
dẫn đến việc nghiên cứu Deep Learning không còn là những bài toán chỉ được nghiên cứu 
trong các phòng lab đắt tiền của các trường Đại học danh giá và các công ty lớn. 

Theo thống kê trên trang paperswithcode hiện có 16 tasks lớn mà Machine Learning có thể thực 
hiện trong đó có tới trên 8 tasks Deep learning đạt kết quả SOTA phải kể đến như: 

* Computer Vision 

* Natural Language Processing 

* Medical 

* Methodology 

* Speech 

* Time Series 

* Audio 

* Music 


Y tuóng và muc dích cüa cuón sách 

Hồi đầu năm 2019, khi nghiên cứu ứng dung vé Deep Learning trong ngành Y, tôi nhận ra là mặc 
dù bản thân minh là kỹ sư có kha năng lập trinh Deep Learning nhưng lại thiếu kiến thức chuyên 
môn ngành Y để phát triển ứng dụng chuyên sâu. Ngược lại, các bác sĩ hiểu được các van dé chuyên 
môn thì lại thiếu các kỹ năng lập trình cần thiết. 


Thé nên tôi quyết định viết loạt bài viết này để giới thiệu các kiến thức cơ bán vé Deep Learning 
cũng nhu các ứng dung của nó để mọi người có kiến thức chuyên môn, có dữ liệu trong các ngành 
khác như y tế, ngân hàng, nông nghiép,... có thể tự áp dụng được Deep Learning trong lĩnh vực 
của họ. 


Thêm vào đó tôi muốn cung cấp một nén tang về toán và Deep Learning cơ bản cho các bạn 
học sinh, sinh viên có thể làm được ứng dụng và đào sâu nghiên cứu về deep learning trong môi 
trường học thuật. 


Vì hướng tới nhiều độc giả với các background khác nhau nên khi viết tôi giải thích toán chỉ 
tiết nhưng đơn giản va dễ hiểu. Bên cạnh đó tôi cũng có các bài ứng dụng Deep Learning trong 
thực tế xen kẽ giữa các nội dung lý thuyết để bạn đọc dễ tiếp thu hơn. 


Cuối cùng, hy vọng qua cuốn sách, bạn đọc có được những kiến thức cơ bản về Deep Learn- 
ing và thấy được các ứng dụng của nó. Để rồi áp dung các ý tưởng vào start-up, công ty để có các 
ứng dụng hay, thiết thực cho xã hội. Bên cạnh đó mong rằng cuốn sách là bệ phóng cho các bạn 
sinh viên Việt Nam nghiên cứu thêm về Deep Learning để có các nghiên cứu, thuật toán mới. 


Yêu cầu 
Vì cuốn sách này tôi muốn viết cho tất cả mọi người nên tôi sẽ giải thích tất cả mọi thứ chỉ tiết nhất 
có thể. Một số yêu cầu để có thể theo nội dung sách: 

e Kiến thức vé toán cơ bản cấp ba: hàm só, đạo hàm. 

e Kiến thức cơ bản về lập trình Python: biến, vòng lặp (tôi có giới thiệu ở phần dưới) 

* Y thức tự học hỏi kiến thức mới. 


Nội dung 
Chương I, tôi giới thiệu về cách cài đặt môi trường với Anaconda để chạy code Python cơ bản. 
Ngoài ra tôi cũng hướng dẫn sử dụng Google Colab, với GPU Tesla K80 được Google cung cấp 


miễn phí. Nên ban đọc có thé train model online thay vi sử dụng máy tính cá nhân. 


Chương II, tôi đề cập đến Machine Learning cơ bản với hai thuật toán Linear Regerssion và 
Logistic Regression. Đồng thời tôi giới thiệu về thuật toán Gradient descent, rất quan trọng trong 
Deep Learning. Bên cạnh đó tôi giới thiệu các kiến thức Toán cơ bản như: phép toán với ma trận, 
biểu diễn bài toán dạng ma trán,... 


Chương III, tôi giới thiệu về bài toán Neural Network cũng chính là xương sống của Deep Learning 
và thuật toán Backpropagation để giải bài toán này. Ngoài ra, để hiểu rõ bản chất của Neural 
Network nên tôi cũng hướng dẫn mọi người code từ đầu Neural Network và Backpropagation bằng 
Python trong chương này. 


Chương IV, tôi dé cập tới Convolutional Neural Network (CNN) cho bài toán có xử lý ảnh. 
Sau đó giới thiệu về thư viện Keras và ứng dụng CNN cho bài toán phân loại ảnh với bộ dữ liệu chữ 
số viết tay (MNIST). Cuối chương tôi giới thiệu vé ứng dung thực tế của CNN cho bài toán 6 tô tự lái. 


Chương V, tôi giới thiệu một số tips trong Deep Learning như transfer learning, data augmenta- 
tion, mini-batch gradient descent, dropout, non-linear activation, ... để tăng độ hiệu quả của mô hình. 


Chương VI, tiếp nói ý tưởng từ chương IV , tôi dé cập đến hai bài toán lớn của Deep Learn- 
ing trong Computer Vision. Đó là bài toán về Object Detection và Image Segmentation. Bên cạnh 
đó tôi có hướng dẫn các bước làm bài toán detect biển số xe máy. 

Chương VII, tôi giới thiệu về thuật toán Recurrent Neural Network (RNN) cho bài toán dữ liệu 
dạng chuỗi và mô hình cải tiến của nó là Long Short Term Memory (LSTM). Sau đó tôi hướng dẫn 
mọi người áp dụng mô hình LSTM cho bài toán thêm mô tả cho ảnh. Cuối cùng tôi giới thiệu mạng 


sequence to sequence (seq2seq) cho bài toán dịch cùng cơ chế attention. 


Chương cuối tôi giới thiệu về mạng generative adversarial networks (GAN) với một số mô hình 
GAN như deep convolutional GAN (DCGAN), conditional GAN (cGAN). 


Ngoài ra trong cuối mỗi chương tôi đều đưa ra bài tập vé thực hành code với Python va dat 
ra những câu hỏi để mọi người hiểu rõ thêm về lý thuyết mà tôi đã giới thiệu. 


Thông tin liên lạc 


Website của tôi. 

Facebook cá nhân của tôi. 

Group để hỏi đáp tại đây. 

Page cập nhật tin tức mới về AI tại đây. 
Tat cả code trên sách ở trên github. 


Vì đây là bản đầu tiên của cuốn sách nên mọi người có nhận xét, góp ý, phản ánh xin gửi về 
mail nttuan8.com @ gmail.com 


Xin cam ơn mọi người rat nhiêu! 
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Loi cam on 

Trước hết tôi xin cảm ơn ban bè trên Facebook đã nhiệt tình ủng hộ và đóng góp cho các bài viết 
trong series Deep Learning cơ bản từ những ngày đầu tiên. Các bạn là động lực lớn nhất cho tôi để 
hoàn thành series và xuất bản sách này. 


Xin cảm ơn bạn Lê Vũ Hoàng (Nghiên cứu sinh ngành thống kê, ĐH Trinity College Dublin) đã 
giúp tôi đọc và chỉnh sửa các bài viết trên blog trước khi đến tay bạn đọc cũng như giúp tôi chỉnh 
sửa nội dung khi soạn sách. 


Xin cảm ơn bạn Nguyễn Thế Hùng (Toán tin - K59 - ĐHBKHN), Nguyễn Thị Xuân Huyền 
(Điện tử Viễn thông - Kó0 - ĐHBKHN) đã giúp tôi đọc và chỉnh sửa nội dung sách. 


Cuối cùng và quan trọng nhất, tôi xin cảm ơn gia đình, người thân những người luôn động 
viên và ủng hộ tôi trong dự án này. 


Sách tái bán lán thứ hai 
Trong quá trình đi dạy và đi làm tôi thấy rất nhiều câu hỏi hay về machine learning, deep learning 
như: L1 và L2 loss khác nhau thé nao, tai sao L1 tốt cho outliers?,... Nên tôi cập nhật sách để cập 
nhật các kiến thức cho bạn đọc. Thêm vào đó, qua quá trình dạy tôi sẽ sửa sách theo hướng giải 
thích các kiến thức đơn giản, dễ hiểu hơn cho bạn đọc. Bên cạnh đó, sách vẫn còn những lỗi nhỏ 
nên tôi muốn sửa và cập nhật. Các thay đổi trong lần tái bản thứ hai: 

* Thêm chương GAN. 

e Viét bài sequence to sequence và attention. 

e Viét bài hướng dẫn dùng yolo dé detect biển số xe. 

e Thêm phan visualize CNN. 

* So sánh các loss function cho linear regression. 

e Giải linear regression bang dai số tuyến tính. 

e Viét lại phan python cơ bản. 

e Thêm phan word embedding. 

e Thêm phan batch normalization. 

e Hướng dán lưu model trong machine learning dùng numpy. 

* Doc soát lại và sửa nội dung các phan trong sách. 
Tôi xin cảm ơn bạn đọc đã nhiệt tình ủng hộ và đóng góp cho sách Deep Learning cơ bản từ những 
ngày đầu tiên xuất bản. Các bạn là động lực lớn nhất cho tôi để tái bản cuốn sách này. 


Xin cảm ơn bạn Bùi Thị Liên ( Công nghệ thông tin - K61 - DHBKHN), Trần Bảo Hiếu (Công 
nghệ thông tin Việt Nhật Hedspi - K61 - DHBKHN), Hoàng Đức Việt (Khoa Hoc Máy Tính - K63 
- ĐHBKHN), Trần Hữu Huy (Khoa Học Máy Tính - K63 - DHBKHN), Phạm Văn Hạnh (Khoa 
Học Máy Tính - Kó3 - ĐHBKHN), Nguyễn Duy Đạt (Nghiên cứu sinh ngành khoa học máy tính, 
Đại học Taiwan Tech), Nguyễn Hoàng Minh ( K34 Chuyên Lý - THPT KHTN) đã giúp tôi viết các 
phần mới cũng như đọc và chỉnh sửa sách trong lần tái bản này. 


Cuối cùng và quan trọng nhất, tôi xin cảm ơn gia đình, người thân, bạn bè những người luôn 
bên cạnh động viên và ủng hộ tôi. 


Hinh 2: Anh chup 6 Stonehenge 


“Người vá trời lap bể 
Kẻ dap luỹ xây thành 
Ta chỉ là chiếc lá 
Việc của mình là xanh" 
Nguồn: Trái tim người lính (thơ), Nguyễn Si Đại, NXB Thanh niên. 


Từ những ngày đầu tiên viết blog tôi luôn quan niệm "chia sẻ là để học hỏi" thế nên "kiến 
thức là để cho đi". Cuốn sách này được chia sẻ miễn phí tới bạn đọc với thông điệp: 


"Vi một công đồng AI Việt Nam phát triển bên vững" 
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1. Cai dat môi trường 


Gidi thiéu 

Python là ngôn ngữ được sử dung phổ biến nhất trong Deep Learning, vậy nên tất cả code trong 
sách sé được viết bằng python và thư viện Deep Learning được chọn để sử dụng là Keras. Trong 
phần này tôi sẽ hướng dẫn cài đặt môi trường. Có 2 dạng là chạy online dùng google colab và cài 
trên local dùng anaconda và IDE là spyder, VS Code hoặc jupyter notebook. Hiểu đơn giản thì néu 
dùng google colab bạn sẽ viết code python và chạy online, không cần cài gì trên máy cả nên sẽ đơn 
giản hơn và máy cấu hình yếu vẫn chạy được. 


Google Colab 


Huấn luyện (hay còn gọi là train) một mô hình Deep Learning, cần xử lý lượng phép tính lớn hơn 
nhiều so với các mô hình Machine Learning khác. Dé cải thiện tốc độ tính toán, người ta dùng GPU 
(Graphics Processing Unit) thay cho CPU (Central Processing Unit) vì với 1 GPU cho phép xử lý 
nhiều phép tính song song với rất nhiều core sẽ nhanh hon nhiều so với CPU. Tuy nhiên giá của 
GPU thì khá đắt đỏ để mua hoặc thuê server có GPU. Thế nên Google đã cung cấp Google Colab 
miễn phí có GPU để chạy code python (deep learning) cho mục đích nghiên cứu. 


Ở trên môi trường Colab có cài sẵn các thư viện Deep Learning phổ biến như PyTorch, Ten- 
sorFlow, Keras,.. Ngoài ra bạn cũng có thể cài thêm thư viện để chạy nếu cần. Thêm vào đó thi bạn 
cũng có thể liên kết Colab với google drive và đọc, lưu dữ liệu lên google drive nên rất tiện để sử 
dụng. 


Mặc dù Ở trên Colab chỉ hỗ trợ 2 version Python là 2.7 và 3.6, chưa hỗ trợ ngôn ngữ R và 
Scala, thì Google Colab vẫn là môi trường tuyệt vời để học và thực hành với deep learning. 


Tao file trên google colab 


Đầu tiên bạn vào google drive, tạo folder mà bạn muốn lưu các file colab, rồi chọn nút New 
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My Drive ~ 
+ New 


> [a] My Drive 


Sau dó kéo xuóng chon Google Colaboratory hoác ban có thé truy cáp truc tiép vao day. 


Folder — AA — i 


id today You opened today 


File upload 
Folder upload 


EJ Google Docs > 
eep-learnin Images 
Google Sheets P z e S 
E1 Google Slides > 
More > 
E Google Forms > 
E Backups Bm o D Google Drawings 
DU Google My Maps 
== Storage : . 
Files Ed Google Sites 
ana TOR Ne KB drawio Diagrams 
UPGRADE STORAGE 
cø Google Colaboratory 
f4 Google Jamboard 
@ ZIP Extractor 
2 B Zip UnZip 


+ 


Connect more apps 


E] te 


Trong trường hợp ban không tim thấy Google Colaboratory, hãy chon "Connect more apps" ở phía 
bén duói, sau dó search Google Colaboratory trén thanh tim kiém va cai dat. 


Tiếp đó, ban click vào phan tên trên cùng của file để đổi tên file cho phù hợp 


& PythonTutorial.ipynb 


File Edit View Insert Runtime Tools Help 


1.2.2 Chon GPU 


Buóc nay dé chon GPU chay, ban chon Runtime -> Change runtime type 
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File Edit View Insert Runtime Tools Help 


|! + Text Run all Ctrl+F9 

Run before Ctrl+F8 

) Run the focused cell Ctrl+Enter 
— Run selection Ctri+Shift+Enter | 

Run after Ctrl+F10 


Reset all runtimes... 
Change runtime type 


Manage sessions 


Rồi click vào dấu mũi tên xuống phan Hardware accelerator chon GPU 


Notebook settings 


Runtime type 


Python 3 v 

Hardware accelerator 

GPU None O) 

C] omit code cell out GPU aving this notebook 
TPU CANCEL SAVE 


1.2.3 Các thành phán nhỏ 


Vi code Python dugc chia thành tüng khói (block) dé chay, ban nhin hinh bén duói có: 
e nút +Code để thêm 1 block code python 
e nút 4 Text để thêm 1 khói text (giống nhu comment nhung có thé format được mau style hơn) 
e biểu tượng hình thùng rác để xóa khói code/text đi 
e nút mũi tên xoay ngang để chay khối code/text day. Bên cạnh đó các bạn cũng có thể chay 


22 Chương 1. Cai đặt môi trường 


khối code bằng các phím tắt cho nhanh hơn: 
— Cmd/Ctrl + Enter (Cmd cho Mac, Ctrl cho Win): chạy khói code/text. 
— Shift + Enter: Chạy và chuyển đối tượng xuống khối code bên dưới. 
— Alt + Enter: Chạy và thêm một khói code bên dưới. 


Connect + # Editing 
© ous: 


1.2.4 Link với google drive 


Doan code dé link tói các file trén Google drive 


from google.colab import drive 
drive.mount('/content/gdrive') 


x.  wom o. 


from google.colab import drive 
drive.mount(' /content/gdrive' ) 


e. Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client id-947318989803-6bneqk&qdgfan4g3pfees491hcobrc4i . apps. googleusercontent.com&redirect_uri=urn%3aietf%3awe 


Enter your authorization code: 


Sau khi ấn chạy đoạn code day, ban click vào link trên, chon tài khoản google bạn dang dùng, rồi 
chọn accept bạn sẽ có mã code như ở dưới. 


Please copy this code, switch to your application and paste it there: 


4/rQG5p81sYJYUO8see- m 
G93vTrxS JU4DxGcPU9 Imn54hROeNSFUHRYwa®@ 


Rồi ban copy mã code đấy vào 6 trống ở trong phan chạy của block hiện tại rồi ấn enter 


9 from google.coleb import drive 
drive.nount(' /content/gdrive' ) 


« Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?cLient_id=947318989803-6bn6qk8qdgfan4g3pfee6491hcôbrc4i .apps.goog1eusercontent..com&redirect_uri=urn#3Aietf⁄3Awg 


Enter your authorization code: 


Sau khi link (mount) thành công ban sé thấy dòng chữ Mounted at /content/gdrive 


© from google.colab import drive 
drive.mount(' /content/gdrive' 1 


Go to this URL in a browser: https: //accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgfanag3pfeesa91hcobreai.apps.googleusercontent.coméredirect uri=urn%3Aietf%3Awg 


tự 


Enter your authorization code: 


Mounted at /content/gdrive 


Sau đó bạn click vào nút mũi tên 
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> 


Open the left pane | 899€ 
= aw  „ MOL 


Rồi chon tab Files dé nhìn thấy các Files, cách tổ chức file và thư mục dang cây giống như trong 
window. 


Table of contents Code snippets Files X 


+ UPLOAD Œ REFRESH ¿4 MOUNT DRIVE 


ra. 
^ Bp gdrive 
> Bg sample data 


Các file và thu muc trong google drive dugc luu ó gdrive/My Drive 
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Table of contents Code snippets Files X 


+ UPLOAD ( REFRESH @ MOUNT DRIVE 


ra. 
- fp gdrive 
+ B MyDrive 

> Bg Advanced Deep Learning Keras 
> Bg Colab Notebooks 
> Bg Deep-learning 
> _  DeepLearningForComputerVision 
> Bg Distance Transform 


Để chuyển thư mục hiện tai đến thư mục khác bạn dùng lệnh 


Vicd '/content/gdrive/My Drive/Deep-learning' 
!| 18 


Table of contents Code snippets Files X 


[1] from google.colab import drive 
£ UPLOAD @ REFRESH € MOUNT DRIVE GER, 
a. [> Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client id-947318989803-GbnsqkBqdgfAn4g3pfesc4O1hcobrcAi . apps. googleu 
~ B gdrive 
- Bm MyDrive ener your authorization code: 
» [B] Advanced Deep Learning Keras Mounted at /content/gdrive 


» Ba Colab Notebooks 


` 
~ Ba Deep-learning + ongi: 


B 03-Linear Regression & Logistic R... >] ted */content/gdrive/Wy Drive/Deep-learning’ 
11s 

B 6-CNN- Basic pptx 
BB Danh sách học sinh khóa DLk3.gs... D» /content/gdrive/My Drive/Deep-learning 

SE "O3-Linear Regression & Logistic Regression.pptx'  dataset.csv 
BB date besteet *6-CNN - Basic.pptx' linear regression.ipynb 
B dateset.csv "Danh sách học sinh khóa DLk3.gsheet* logistic regression.ipynb 
B linear: regressionápynio data linear.csv mist. ipynb 


1.2.5 Cai thêm thu viện 


Dé cài thêm thư viện ban dùng cú pháp !pip install thu viện , ví dụ lệnh dưới dé cài thu viện scipy 


!pip install scipy 


e EE 
[>] Ipip install scipy 


[» Requirement already satisfied: scipy in /usr/local/lib/python3.6/dist-packages (1.3.1) 
Requirement already satisfied: numpy>=1.13.3 in /usr/local/lib/python3.6/dist-packages (from scipy) (1.16.5) 


1.3 Hướng dẫn còi dat anaconda 


1.3.1 


Gidi thiéu 
Anaconda là nền tang mã nguồn mở về Khoa học dữ liệu trên Python thông dụng nhất hiện nay. 
Với hơn 11 triệu người dùng, Anaconda là cách nhanh nhất và dễ nhất để hoc Khoa học dữ liệu với 
Python hoặc R trên Windows, Linux và Mac OS X. Lợi ích của Anaconda: 

e Dễ dang tái 1500+ packages vé Python/R cho data science 

e Quan lý thư viện, môi trường và dependency giữa các thư viện dé dàng 

* Dé dàng phát triển mô hinh machine learning và deep learning với scikit-learn, tensorflow, 

keras 
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e Xử ly dữ liệu tốc độ cao với numpy, pandas 
e Hiển thị kết quả với Matplotlib, Bokeh 


Trong khi đó Spyder là 1 trong những IDE (môi trường tích hợp dùng để phát triển phần mềm) tốt 
nhất cho data science và quang trọng hơn là nó được cài đặt khi bạn cài đặt Anaconda. 
1.3.2 Yêu cầu phán cứng và phán mềm 


* Hệ điều hành: Win 7, Win 8/8.1, Win 10, Red Hat Enterprise Linux/CentOS 6.7, 7.3, 7.4, 
and 7.5, and Ubuntu 12.04+. 

e Ram tối thiểu 4GB. 

e Ó cứng trống tối thiểu 3GB để tải và cai đặt. 


13.3 Cài đặt 


Ban click vào day. Sau khi tai xong ban mó file 


2 Anaconda3 2018.12 (64-bit) Setup 


Welcome to Anaconda3 2018.12 
(64-bit) Setup 


Setup will guide you through the installation of Anaconda3 
2018. 12 (64bit). 


ANACONDA. It is recommended that you close all other applications 
before starting Setup. This will make it possible to update 
relevant system files without having to reboot your 
computer. 


Click Next to continue. 


Hinh 1.1: Click Next 
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O Anaconda3 2018.12 (64-bit) Setup = x 
P License Agreement 
ANACONDA Please review the license terms before installing Anaconda3 
2018. 12 (64-bit). 


Press Page Down to see the rest of the agreement. 


All rights reserved under the 3-dause BSD License: 


Redistribution and use in source and binary forms, with or without modification, are 
permitted provided that the following conditions are met: 


v 


If you accept the terms of the agreement, dick I Agree to continue. You must accept the 
agreement to install Anaconda3 2018. 12 (64-bit). 


| <Bak | tagee ] came ` 


Hình 1.2: Click I agree 


O Anaconda3 2018.12 (64-bit) Setup — x 


a Select Installation Type 
ANACONDA Please select the type of installation you would like to perform for 
Anaconda3 2018. 12 (64-bit). 


Install for: 
@ Just Me (recommended) 
All Users (requires admin privileges) 


Anaconda, Inc 


essa zen - 


Hinh 1.3: Click Next 
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9 Anaconda3 2018.12 (64-bit) Setup — x 


p Choose Install Location 
ANACONDA Choose the folder in which to install Anaconda3 2018. 12 (64-bit). 


Setup will install Anaconda3 2018. 12 (64-bit) in the following folder. To install in a different 
folder, dick Browse and select another folder. Click Next to continue. 


Space required: 2.8GB 


cea [ra] e 


Hình 1.4: Bạn có thể chon như mục cài đặt khác bằng việc click Browse... và chon, xong thì click 
Next 


O Anaconda3 2018.12 (64-bit) Setup = x 


Advanced Installation Options 
ANACONDA Customize how Anaconda integrates with Windows 


Advanced Options 


[7] Add Anaconda to my PATH environment variable 

Not recommended. Instead, open Anaconda with the Windows Start 
menu and select "Anaconda (64-bit)". This "add to PATH" option makes 
Anaconda get found before previously installed software, but may 
cause problems requiring you to uninstall and reinstall Anaconda. 


[V]Register Anaconda as my default Python 3.7 


This will allow other programs, such as Python Tools for Visual Studio 
PyCharm, Wing IDE, PyDev, and MSI binary packages, to automatically 
detect Anaconda as the primary Python 3.7 on the system. 


cok [Coma] [coe 


Hình 1.5: Ban nhớ click vào 6 vuông gần dòng Add Anaconda to my PATH environment 
variable 
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A ANACONDA Setup was completed successfully. 


| Show details 


Hinh 1.6: Click next 


P Anaconda3 5.1.0 (64-bit) 
Pi ) ANACONDA Microsoft Visual Studio Code Installation 


Anaconda has partnered with Microsoft to bring you Visual Studio Code. Visual Studio 
Code is a free, open source, streamlined cross-platform code editor with excellent 
support for Python code editing, IntelliSense, debugging, linting, version control, and 
more. 


To install Visual Studio Code, you will need Administrator Privileges and Internet 
connectivity. 


Visual Studio Code License 


_Ginstal microsoft vsCode 


ELE mcum I ces 


Hinh 1.7: Click Skip 
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ƏD Anaconda3 5.1.0 (64-bit) Setup — 


Thanks for installing Anaconda3! 


CH Anaconda is the most popular Python data science platform. 
Share tebooks, „ Projects and environments 
ANACONDA. Stare your notebooks, packages, projects 
[Ez] Learn more about Anaconda Cloud 


M Learn how to get started with Anaconda 


MA mm ] oc 


Hinh 1.8: Click Finish. 


Cài đặt một số library co bản 


MG anaconda command line và copy lệnh sau dé cai library. 
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Best match 


Anaconda Prompt 
Desktop app 


Apps 

© Anaconda Navigator 
Search suggestions 

yo ana - See web results 


Documents (7+) 


Mot só thư viện cơ bản 


e Numpy: conda install -c anaconda numpy 
* Pandas: conda install -c anaconda pandas 
* Matplotlib: conda install -c conda-forge matplotlib 
* Keras: conda install -c conda-forge keras 


Hoác ban cüng có thé cài báng pip trén anaconda prompt 


* Numpy: pip install numpy 

* Pandas: pip install pandas 

* Matplotlib: pip install matplotlib 
* Keras: pip install Keras 


1.3 Hướng dỗn cdi dat anaconda 3] 


1.53.4. Hướng dán sử dụng Jupyter notebook 


Best match 
= Jupyter Notebook 
Ld Desktop app “ 
(€? Google Chrome 
Search suggestions e Internet Explorer (64-bit) 
2 ju - See web results > é Internet Explorer 
@ Mozilla Firefox 
Documents (7+) El Windows DVD Maker 
Settings (1) PI Windows Fax and Scan 
© Windows Media Center 
© Windows Media Player 
€ Windows Update 
«A XPS Viewer 
A Accessories 
pP 
Ayre: Notebcok 
A y 
DM 


Hình 1.9: Bên trái: Mở jupyter notebook trên win10, bên phải: Mở trên win7 


Giao diện mở ra, click vào new chọn Python3 để tao 1 notebook mới 


© localhost:8888/tres t Ge e 9 
= Jupyter Qut || Logout 


Files Running ister 


Select items to perform actions on them Upload [News] œ 


Not 
0 ~ D Name 
meV| gen? e 


Text File 


CC 


Folder 


Terminal 


CC 


D 


14 giờ trước 


7 


3 ngày trước 


CC 


14 giờ trước 


4 tháng trước 


Sau đấy thì dùng giống như google colab, nhưng điểm khác biệt là jupyter notebook sẽ chạy trên 
máy của bạn chứ không phải cloud như google colab. 
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Phan này sẽ giới thiệu Python co bản cho những người mới chưa học lập trình, hoặc từ ngôn ngữ 
khác chuyển qua dùng Python. Nội dung được tham khảo từ đây 


Kiểu dữ liệu cơ bản 
Giống với các ngôn ngữ lập trình khác, Python cũng có các kiểu dữ liệu cơ bản như integers (số 
nguyên), floats (số thực), booleans (kiểu dữ liệu True/False) và strings (chuỗi). 


Để khai báo biến trong Python không cần chỉ định kiểu dif liệu trước như những ngôn ngữ 
khác mà khi ta gán dữ liệu cho biến thì python tự gán kiểu phù hợp cho biến. 


Cú pháp để khai báo biến: 


# variable_name = value 
x = 3 


Đặt tên biến trong python có một vài quy tắc: 

Tên biến nên có nghĩa. Tên biến do mọi người tự đặt nhưng nên đặt theo ý nghĩa, tác dụng 
của biến đấy trong chương trình. Thứ nhất là khi mọi người code dài, muốn ở dưới dùng lại 
thì cũng dễ nhớ. Thứ hai là khi người khác đọc code của bạn sẽ dễ hiểu hơn. 

Tên biến phải bat đầu với chữ cái hoặc dấu gạch dưới (_). 

Tên biến không được bắt đầu với số. 

Tên biến chi được chứa các chữ cái, các số và dấu gạch dưới (A-Z, a-z, 0-9, _) 

Tên biến có phân biệt chữ hoa chữ thường. Ví dụ age, AGE, Age, aGE là 4 tên biến khác nhau 


Số 
Số nguyên và số thực dùng như các ngôn ngữ khác 


x= 3 
print(type(x)) # Prints "<class 'int'>" 
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print (x) # Prints "3" 

print(x + 1) # Cộng; prints "4" 
print(x - 1) # Tru; prints "2" 
print(x * 2) # Nhân; prints "6" 
print(x ** 2) # Lúy thừa; prints "9" 
x t= 1 # Giống vdi 2 =a + 1 
print (x) 

X *= 2 # Giống o -m- * 2 
print (x) 

yu 2.5 


print(type(y)) # Prints "<class 'float'>" 
print(y, y + 1, y * 2, y ** 2) # Prints "2.5 3.5 5.0 6.25" 


Phép tính logic 
Python có kiểu dữ liệu boolean, các bién kiểu này nhận 2 giá trị là True hoặc False. Python có các 
phép tính logic nhưng dùng các từ tiếng anh (and, or) thay cho kí hiệu (&&, Il): 


t = True 

f = False 

print(type(t)) £ Prints "<class 'bool'>" 
print(t and f) # AND; prints "False" 
print(t or f) # OR; prints "True" 
print(not t) # NOT; prints "False" 
print(t !- f) # XOR; prints "True" 


Chuỗi 
Python có hỗ trợ dạng chuỗi, để lưu giá trị dạng chuỗi có thể để trong dấu " hoặc ' nhưng mó bằng 
dấu nào phải đóng bằng dấu đấy. 


# greet = "hello' # câu lệnh nay lõi 

hello = 'hello' # gan giá tri chuỗi cho bién, chuỗi đặt trong 2 dấu ' 
world = "world" # chuỗi cúng có thể đặt trong dấu ". 

print (hello) # Prints "hello" 

print (len(hello)) # Độ dai chuỗi; prints "5" 

hw = hello + ' ' + world # Nói chuỗi bằng dấu + 

print (hw) # prints "hello world" 

hwi2 = '{} {} {}'.format(hello, world, 12) # Cách format chuỗi 

print (hw12) # prints "hello world 12" 


Kiểu string có rất nhiều method để xử ly chuỗi. 


s = "hello" 

print (s.capitalize()) # Viét hoa cht cái dau; prints "Hello" 
print (s.upper ()) # Viết hoa tat cả các chỗ; prints "HELLO" 
print(s.replace('1', '(e11)')) # Thay thé chuỗi; prints "he(ell)(ell)o" 
print(' world '.stripO) # Bỏ di khoáng tráng d đầu và cuối chuỗi; 


# prints "world" 
print('Nguyen Thanh Tuan'.split()) # Split chuỗi ra list, phân tách bằng 1 hoặc nhiéu 
# khoảng trắng ; prints ['Nguyen', 'Thanh', 'Tuan'] 
print(' '.join(['Nguyen', 'Thanh', 'Tuan']) # Join các phan tú trong list Lại vói nhau, 
# các phan tử cách nhau bằng 1 khoảng trắng; 
# prints "Nguyen Thanh Tuan" 
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Containers 

Các kiểu dữ liệu cơ bản chỉ chứa một giá tri mỗi biến (số, chuỗi), tuy nhiên nhiều lúc mình cần chứa 
nhiều giá tri, ví dụ chứa tên học sinh trong một lớp có 100 ban. Mình không thé tao 100 bién dé 
lưu tên 100 bạn. Vậy nên cần các kiểu dữ liệu có thể chứa nhiều giá trị khác nhau. Đó là container 
(collection). Python có một số container như: list, tuple, set, dictionary. Dưới tôi sẽ trình bày hai 
kiểu dif liệu collection mà mọi người hay gặp nhất trong python là list va dictionary. 


List 
List trong Python gióng như mang (array) nhưng không có định kích thước va có thể chứa nhiều 
kiểu dữ liệu khác nhau trong 1 list. 


xs = [3, 1, 2] # Tao 1 list 

print(xs, xs[2]) # Prints "[3, 1, 2] 2" 

print (xs [-1]) # Chỉ số âm Là đếm phan tú tu cuối list lén; prints "2" 
xs[2] = 'foo' # List có thể chúa nhiều kiểu phần tử khác nhau 

print (xs) # Prints "[3, 1, 'foo']" 

xs.append('bar') # Thêm phần tử vào cuó4 list 

print (xs) # Prints "[3, 1, 'foo', 'bar']" 

x = xs.pop() # Bỏ đi phần tú cuối cùng khói list và trả vé phần tủ đấu 
print(x, x8) # Prints "bar [3, 1, 'foo']" 


Slicing Thay vì lay từng phan tử một trong list thi python hỗ trợ truy xuất nhiều phan tử 1 lúc gọi là 
slicing. 


range sinh ta 1 list các phan tử 

Prints "JO, 1, 2, 8, 4]" 

Lay phần tú thú 2->4, python chỉ số mang từ 0; 

Lay từ phan tủ thú 2 đến hết; prints "[2, 3, 4]" 

Lay tù đầu đến phần tú thú 2; prints "[O, 1]" 

Lay tất cả phần tử trong list; prints "[0, 1, 2, 3, 4]" 
Lay tù phan tú đầu đến phần tú gần cuối trong list; 
prints "[0, 1, 2, 3]" 

Gán giá tri mới cho phan tử trong mảng tu vi trí 2->4 
Prints "IO, 1,8, 9; JJ" 


nums - list(range(5)) 
print (nums) 

print (nums [2: 4] ) 
print (nums [2: ]) 

print (nums[ : 2] ) 

print (nums[:]) 

print (nums[:-1]) 


# 
# 
# 
# 
# 
# 
# 
# 
nums [2:4] = [8, 9] # 
print (nums) # 


Loops Dé duyét va in ra các phan tif trong list 


animals = ['cat', 'dog', 'monkey'] 
# duyệt giá tri không cần chỉ số 
for animal in animals: 
print('%s' % (animal)) 
# duyét giá tri kèm chỉ số ding enumerate 
for idx, animal in enumerate(animals) : 
print('#%d: %s' ^ (idx + 1, animal)) 
# Prints "#1: cat", "#2: dog", "#3: monkey", in mot thành phần trong list 1 dëng 


Dictionaries 


Dictionaries lưu thông tin dưới dang key, value. 
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d = {'cat': 'cute', 'dog': 'furry') # Tao dictionary, các phan tử dang key:value 
print(d['cat']) # Lay ra value của key 'cat' trong dictionary prints "cute" 
print('cat' in d) # Kiém tra key có trong dictionary không; prints "True" 
d['fish'] = 'wet' # Gan key, value, d[key] = value 

print(d['fish']) # Prints "wet" 

# print (d['monkey']) # Lõi vi key 'monkey' không trong dictionary 

del d['fish'] # Xóa phan tt key:value từ dictionary 


Loop Duyệt qua các phan tử trong dictionary 


d = {'person': 2, 'cat': 4, 'spider': 8} 
# Duyét key 
for animal in d: 
print('A je has ^d legs' % (animal, d[animal])) 
# Prints "A person has 2 legs", "A cat has 4 legs", "A spider has 8 


# Duyét value 
for legs in d.values(): 
print('⁄d legs' ^ (legs)) 
# Prints "2 legs", "4 legs", "8 legs" 


# Duyét cá key và value 
for animal, legs in d.items(): 
print('A je has %d legs' % (animal, legs)) 
# Prints "A person has 2 legs", "A cat has 4 legs", "A spider has 8 legs" 


Function 


Function (hàm) là một khói code python được thuc hiện một hoặc một số chức năng nhất dinh. Hàm 
có input và có ouptut, trước khi viết hàm mọi người nên xác định hàm này để làm gi? input là gi? 
output lam gi? 


Vi dụ hàm kiểm tra số nguyên tố, mục dich để kiếm tra 1 số xem có phải là số nguyên tố hay không, 
input là 1 số nguyên dương, output dạng boolean (True/False). True tức là số input là số nguyên tó, 
False nghĩa là không phải số nguyên tó. 


Function trong python được định nghĩa với keyword def. 
# Hàm có input là 1 só và output xem số đấu âm, duong hay số O 


# Dinh nghia ham 
def sign(x): 


if x > 0: 

return 'positive' 
elif x « O: 

return 'negative' 
else: 


return 'zero' 


for x in [-1, O, 1]: 
X Got ham 
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print (sign(x)) 
# Prints "negative", "zero", "positive" 


Thu vién trong python 


Thư viện (library) bao gồm các ham (function) hay lớp (class) được viết sẵn với các chức năng khác 
nhau. Ví dụ thư viện math cung cáp các hàm về tính toán nhu exp, sqrt, floor,... 


Muốn nhập thư viện vào chương trình, ta dùng cú pháp: import tén thu viện, ví dụ: import numpy. 


Đối với những thư viện có tên dài, ta thường rút ngắn lại để sau này dễ sử dụng. Khi đó, ta 
sử dung cú pháp: import tên thu viện as tên rút gon, ví du: import matplotlib.pyplot as plt. Sau này, 
khi sử dụng đến thư viện, ta chỉ cần gọi đến tên rút gọn thay vì phải gõ lại tên đầy đủ của thư viện, 
ví dụ thay vì viết matplotlib.pyplot.plot, ta chỉ cần viết plt.plot. 


Thư viện Numpy 

Vì Python là scripting language nên không thích hợp cho machine learning, numpy giải quyết vấn 
dé trên bằng cách xây dựng 1 thư viện viết bằng C nhưng có interface Python. Như vậy Numpy 
cộng hưởng 2 ưu điểm của 2 ngôn ngữ: nhanh như C và đơn giản như Python. Điều này giúp ích rất 
nhiều cho cộng đồng Machine Learning trên Python. 


Mảng trong numpy gồm các phần tử có dùng kiểu giá trị, chỉ số không âm được bắt đầu từ 
0, số chiều được gọi là rank của mảng Numpy, và shape của mảng là một tuple các số nguyên đưa 
ra kích thước của mảng theo mỗi chiều. 


import numpy as np 


a = np.array([1, 2, 3]) 4 Tao array 1 chiều 


print (type(a)) # Prints "<class 'numpy.ndarray'>" 
print (a. shape) # Prints "(3,)" 

print(a[0], afi], a[2]) # Prints "1 2 3" 

a[0] = 5 # Thay đổi phần tử vi trí số 0 
print (a) # Prints "[5, 2, 3]" 


b = np.array([[1,2,3],[4,5,6]]) # Tao array 2 chiéu 
print (b. shape) # Prints "(2, 3)" 
print(b[0, 0], b[O, 1], b[1, 01) # Prints "1 2 4" 


Ngoài ra có những cách khác để tao array với giá tri mặc định 


import numpy as np 


a = np.zeros((2,2)) # Tao array uới tất cá các phan tú 0 


print (a) # Prints "[[ 0. 0.] 

# [0. 0.]]" 
b = np.ones((1,2)) # Tao array uới các phan từ 1 
print (b) X Prints "[[ 1. 1.]]" 


c = np.full((2,2), 7) # Tao array vói các phan tú 7 


38 Chuong 2. Python co ban 


print (c) # Prints "[[ 7. 7.] 

# EO. MI 
d = np.eye(2) # Tao identity matriz kích thuóc 2*2 
print (d) # Prints "[[ 1. 0.] 

# PO. 1.47" 
e = np.random.random((2,2)) # Tao array uới các phan tử được tạo ngẫu nhiên 
print (e) # Might print "[[ 0.91940167 0.08143941] 

4 [ 0.68744134 0.87236687]]" 


2.5.] Array indexing 
Tương tự nhu list, numpy array cũng có thé slice. Tuy nhiên vì numpy array có nhiều chiều, nén khi 
düng slice phái chi dinh ró chiéu nào. 


import numpy as np 


# Tao array 2 chiều uới kích thước (3, 4) 

#jL1 2 2 dl 

X [5 6 Y 8] 

X [9 10 11 12]] 

a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]]) 


# Dùng slide để láy ra subarra gồm 2 hang đầu tiên (1 & 2) và 2 cột (2 & 3). 
# Output là array kích thuốc 2*2 

# LI2 3] 

# [6 7]] 

b= a[:2, 1:3] 


print(a[0, 1]) A Prints "2" 
a[0, 1] = 77 # Chính súa phan tú trong array 
print(a[0, 11) # Prints "77" 


Bên cạnh đó cũng có thể dùng các chỉ số với slice index. Tuy nhiên số chiều array sé giảm di. 


import numpy as np 


# Tao array 2 chiều kích thước (3, 4) 

*[[1 2 3 4] 

# [5 6 7 8] 

# [9 10 11 12]] 

a = np.array([[1,2,3,41, [5,6,7,8], [9,10,11,12]]) 


row ri = ali, :] # Lay ra hàng thú 2 trong a, output array 1 chiều 
row r2 = a[1:2, :] # Lay ra hàng thú 1&2 trong a, output array 2 chiều 
print(row ri, row ri.shape) # Prints "[5 6 7 8] (4,)" 

print(row r2, row r2.shape) # Prints "[[5 6 7 8]] (1, 4)" 


2.5.2 Các phép tinh trên array 
Các phép tính với ma trận được hỗ trợ trên numpy 


2.5 Thu viện Numpy 


39 


import numpy as np 


x = np.array([[1,2],[3,4]], dtype=np.float64) 
np.array([[5,6],[7,8]], dtype=np.float64) 


# Tinh tong 

& [[ 6.0 8.0] 

# [10.0 12.0]] 
print(x + y) 

print (np.add(x, y)) 


# Phép tru 

* [[-4.0 =4.0] 
# [-4.0 -4.0]] 
print(x - y) 


print (np.subtract(x, y)) 


# Phép nhân element-wise 


# [[ 5.0 12.0] 
# [21.0 32.0]] 
print(x * y) 


print(np.multiply(x, y)) 


# Phép chia element-wise 
# [[ 0.2 0.33333333] 
# [ 0.42857143 0.5 


print(x / y) 


print (np.divide(x, y)) 


# Tinh căn bậc hat 


PG3I D: 1.41421356] 


# [ 1.73205081 2. 
print(np.sqrt(x)) 


Phép toán * dùng để nhân element-wise chứ không phái nhân ma trận thông thường. Thay vào đó 


dùng np.dot để nhân 2 ma trận. 


import numpy as np 


x = np.array([[1,21,[3,41]) 
y = np.array([[5,6],[7,8]1) 


v = np.array([9,10]) 


w = np.array([11, 12]) 


# Nhân ma trận, output số 219 


print (v.dot(w)) 
print(np.dot(v, w)) 


# Nhân ma tran; output ma trận 2*2 
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# [[19 22] 

# [43 50]] 

print (x.dot(y)) 
print (np.dot(x, y)) 


Numpy cũng hỗ trợ tinh tổng array theo các chiều khác nhau 


import numpy as np 
x = np.array([[1,2],[3,4]]) 


print(np.sum(x)) # Tinh tổng tất cả phần tú trong array; prints "10" 
print(np.sum(x, axis=0)) # Tinh tổng phần tú mdi hàng; prints "D 6]" 
print(np.sum(x, axis=1)) # Tính tổng phần tử mỗi cột; prints "[3 7]" 


Broadcasting 
Broadcasting là một kĩ thuật cho phép numpy làm việc với các array có shape khác nhau khi thực 
hiện các phép toán. 


import numpy as np 


# Cộng vector v uới mëi hàng của ma trận z, kết quá Lưu d ma trận y. 
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]]) 

v = np.array([1, 0, 1]) 

y = np.empty like(x)  £ Tạo 1 array có chiéu ging c 


# Dùng loop dé vector v vói mỗi hang của ma trận 
for i in range(4): 
yli, :] = x[i, :] + v 


print (y) 

# Kết quả của 
#[[2 2 4] 
# [5 b Uj 

# [8 8 10] 

# [11 11 13]] 


# Công kiču broadcasting trong python 
print(x + v) 

# Kết quả 

t [[2 2 4 
# dob 5 V 
* [8 8 10] 
# [11 11 13]] 


# 2 kết quá cho ra giống nhau 


Matplotlib 


Thư viện matplotlib dùng để vẽ đồ thị. Phần này tôi di qua các tinh năng co bản của module 
matplotlib.pyplot 
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Ham plot để vé dữ liệu 2d trong python 


import numpy as np 
import matplotlib.pyplot as plt 


# Tinh tọa độ xz, y cho đồ thi hinh sin 
x = np.arange(0, 3 * np.pi, 0.1) 
y = np.sin(x) 


# Plot the points using matplotlib 
plt.plot(x, y) 


plt.show() # You must call plt.show() to make graphics appear. 


10 


0.5 


0.0 


10 


Ta có thể vẽ nhiều đường trên 1 đồ thị cũng như thêm tên đồ thi, tên trục x, y cũng như tên các 


đường tương ứng lên đồ thị. 


import numpy as np 
import matplotlib.pyplot as plt 


# Tinh tọa độ v, y cho đồ thi sin vá cos 
x = np.arange(0, 3 * np.pi, 0.1) 

y_sin = np.sin(x) 

y_cos = np.cos(x) 


# Vé đồ thi sin, cos dùng matplotlib 
plt.plot(x, y_sin) 

plt.plot(x, y_cos) 

plt.xlabel('x axis label') 
plt.ylabel('y axis label') 
plt.title('Sine and Cosine') 
plt.legend(['Sine', 'Cosine']) 
plt.show() 
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Sine and Cosine 


Bên cạnh đấy ta có thể vẽ nhiều subplot và mỗi dé thị trên 1 subplot riêng. 


10 


05 


00 


y axis label 


x axis label 


import numpy as np 
import matplotlib.pyplot as plt 


# Tinh tọa độ vs, y cho đồ thi sin, cos 
x = np.arange(0, 3 * np.pi, 0.1) 

y_sin = np.sin(x) 

y_cos = np.cos(x) 


# Trên grid kích thuốc 2*1, vé trên grid 1 
plt.subplot(2, 1, 1) 


plt.plot(x, y_sin) 
plt.title('Sine') 


# Trên grid kích thuốc 2*1, vé trên grid 2 
plt.subplot(2, 1, 2) 


plt.plot(x, y_cos) 
plt.title('Cosine') 


plt.show() 
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Linear regression .............. 
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Ung dung 
Python code 
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3.1 


3. Linear regression 


Thuật toán linear regression giải quyết các bài toán có đầu ra là giá tri thực, ví du: dự đoán giá nhà, 
dự đoán giá cổ phiếu, dự đoán tuổi... 


Bởi toán 

Bạn làm ở công ty bất động sản, bạn có dữ liệu về diện tích và giá nhà, giờ có một ngôi nhà mới 
bạn muốn ước tính xem giá ngôi nhà đó khoảng bao nhiêu. Trên thực tế thì giá nhà phụ thuộc rất 
nhiều yếu tố: diện tích, số phòng, gần trung tâm thương mại,.. nhưng để cho bài toán đơn giản giả 
sử giá nhà chỉ phụ thuộc vào diện tích căn nhà. Bạn có dữ liệu về diện tích và giá bán của 30 căn 
nhà như sau: 


Diện tích(m2) | Giá bán (triệu VNĐ) 
30 448.524 
32.4138 509.248 
34.8276 535.104 
37.2414 551.432 
39.6552 623.418 


Khi có dữ liệu mình sé visualize dữ liệu lên hình 3.1 

Nếu giờ yêu cầu bạn ước lượng nhà 50 mét vuông khoảng bao nhiêu tiền thì bạn sẽ làm thế nào? Vẽ 
một đường thang gần với các điểm trên nhất và tính giá nhà ở điểm 50 như ở hình 3.2 

Về mặt lập trình cũng cần làm 2 việc như vậy: 

1. Training: Tìm đường thẳng (model) gần các điểm trên nhất. Mọi người có thể vẽ ngay được 
đường thang mô tá dữ liệu từ hình 1, nhung máy tính thì không, nó phải di tìm bằng thuật 
toán Gradient descent ở phía dưới. (Từ model và đường thang được dùng thay thé lẫn nhau 
trong phần còn lại của bài này). 

2. Prediction: Dự đoán xem giá của ngôi nhà 50 m? có giá bao nhiêu dựa trên đường tìm được ở 
phần trên. 


3.2 
3.2.1 


3.2.2 
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Hình 3.1: Đồ thị quan hệ giữa diện tích và giá nhà. 


Thiết lập công thức 
Model 
Phương trình đường thẳng có dang y = ax +b ví dụ hinh 3.3. Thay vì dùng kí hiệu a, b cho phương 


trình đường tháng; để tiện cho biểu diễn ma trận phần sau ta sé thay w, = a,wo = b 


Nên phương trình được viết lại thành: y = w1 xx + wo => Việc tìm đường thang giờ thành việc tìm 
W0, WI. 


Để tiện cho việc thiết lập công thức, ta sẽ đặt ký hiệu cho dữ liệu ở bảng dif liệu: (x1,y1) = 
(30, 448.524), (x2, y2) = (32.4138, 509.248)... 


Tức là nhà diện tích x; thực sự có giá y; . Con giá tri mà model hiện tại dang dự đoán ki hiệu là 
yi = wi*xi + Wọ 


Loss function 
Việc tim wo, wt có thể đơn giản nếu làm bằng mắt nhưng máy tính không biết điều đấy, nên ban 


đầu giá trị được chọn ngẫu nhiên ví dụ wo = 0,w, = 1 sau đấy được chỉnh dần. 


Rõ ràng có thể thấy đường y = x như ở hình 3.4 không hề gần các điểm hay không phải là 
đường mà ta cần tìm. Ví dụ tại điểm x = 42 (nhà 42 m? ) giá that là 625 triéu nhung giá mà model 
du doán chi là 42 triéu. 
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Hình 3.2: Ước tính giá căn nhà 50 m? 


Sự khác nhau giữa giá thật và 
giá dự đoán 


đường y = x 


30 40,5 50 60 70 80 90 100 
mét vuóng 


Hinh 3.4: Su khác nhau tai diém x = 42 cüa model duüng tháng y = x và giá tri thuc té ó bang 1 


3.3 


3.3.1 
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Hình 3.3: Ví du đường thẳng y =x + 1 (a= 1 vàb- 1) 


Nên gid cần 1 hàm để đánh giá là đường thang với bộ tham số (wo,w1) = (0, 1) có tốt hay không. 
PERS i 1 

Với mỗi điểm dü liệu (x;, y;) độ chênh lệch giữa giá that và giá dự đoán được tinh bang: p* (ëwech, 

Va độ chênh lệch trên toàn bộ dữ liệu tinh bằng tổng chênh lệch cua từng điểm: 


Ra 


| y — 
Sagi 10 — yi?) (N là số điểm dif liệu). Nhận xét: 
e J không âm 
e J càng nhỏ thì đường thang càng gần điểm dữ liệu. Nếu J = 0 thì đường thang đi qua tất các 
điểm dữ liệu. 


J được gọi là loss function, hàm để đánh giá xem bộ tham số hiện tại có tốt với dif liệu không. 


=> Bài toán tìm đường thang gần các điểm dữ liệu nhất trở thành tìm wo,w sao cho ham J 
đạt giá trị nhỏ nhất. 


Tóm tắt: Cần tìm đường thẳng (model) fit nhất với dữ liệu, tương ứng với việc tìm tham số 
wo,W1 để cực tiểu hóa ham J. 


Giờ cần một thuật toán để tìm giá trị nhỏ nhất của hàm J(wo, w1). Đó chính là thuật toán gradient 
descent. 


Thuột toán gradient descent 
Dao ham la gi 
Có nhiều người có thé tính được đạo ham của ham f(x) = x? hay f(x) = sin(cos(x)) nhưng vẫn 


không biết thực su đạo hàm là gì. Theo tiếng hán đạo là con đường, ham là hàm số nên đạo ham chỉ 
sự biến đổi của hàm số hay có tên thân thương hơn là độ dốc của đồ thị. 
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Hình 3.5: Đồ thị y = x? 


Nhu mọi người đã học đạo hàm f(x) =x? là f'(x) = 


từ định nghĩa nhưng cấp 3 mọi người đã học quá nhiều về công thức nên tôi không dé cập lại). 
Nhận xét: 


= 2 * x (hoàn toàn có thể chứng minh 


df (x) 
dx 


e (1) =2* 1 <f(2) =2 * 2 nén moi người có thé thấy trên hình là đồ thị tại điểm x = 2 dốc 
hơn đồ thị tại điểm x = 1, tuy nhiên f(-2) = -4 < f(-1) = -2 nhưng đồ thị tai x = -2 dốc hơn 
đồ thị tại x = -1 => trị tuyệt đối của đạo hàm tại một điểm càng lớn thì đồ thị tại điểm đấy 
càng dốc. 

e P'(-1)=2* (-1) = -2 < 0 => đồ thi dang giảm hay khi tăng x thì y sé giảm; ngược lại dao hàm 
tại điểm nào đó mà dương thì đồ thị tại điểm đấy đang tăng. 


3.3.2 Gradient descent 


Gradient descent là thuật toán tìm giá tri nhỏ nhất của ham số f(x) dựa trên đạo ham. Thuật toán: 


1. Khởi tạo giá tri x = xo tùy ý 
2. Gan x =x - learning rate * f'(x) ( learning rate là hằng số dương ví dụ learning rate = 0.001) 
3. Tính lại f(x): Nếu f(x) đủ nhỏ thì dừng lại, ngược lại tiếp tục bước 2 


Thuật toán sẽ lặp lại bước 2 một số lần đủ lớn (100 hoặc 1000 lần tùy vào bài toán và hệ số 
learning. rate) cho đến khi f(x) dat giá trị đủ nhỏ. Ví dụ cần tìm giá trị nhỏ nhất hàm y = x’, hàm 
nay ai cũng biết là giá giá trị nhỏ nhất là 0 tại x = 0 nhưng để cho mọi người dễ hình dung hơn về 
thuật toán Gradient descent nên tôi lấy ví dụ đơn giản. 
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Hình 3.6: Ví du về thuật toán gradient descent 


1. Bước 1: Khởi tạo giá trị ngẫu nhiên x = -2 (điểm A). 
2. Bước 2: Do ở A đồ thị giảm nên f (x=-2) = 2*(-2) = -4 < 0 => Khi gan x =x - learning, rate 
* P(x) nên x tăng nên đồ thị bước tiếp theo ở điểm C. Tiếp tục thực hiện bước 2, gán x = x - 
learning rate * f'(x) thì đồ thị ở điểm D,... => hàm số giảm dan dần tiến tới giá trị nhỏ nhất. 
Moi người có để ý là trị tuyệt đối của đạo hàm tại A lớn hơn tại C và tại C lớn hơn tại D không? Đến 
khi đến gần điểm đạt giá trị nhỏ nhất x = 0, thì đạo hàm xấp xỉ 0 đến khi hàm đạt giá trị nhỏ nhất 
tại x = 0, thì đạo ham bang 0, nên tại điểm gần giá trị nhỏ nhất thì bước 2 gan x = x - learning rate 
* f'(x) là không đáng kể và gần nhu là giữ nguyên giá trị của x. 


Tương tự nếu giá trị khởi tạo tại x = 2 (tại B) thì đạo hàm tại B dương nên do x = x - learn- 
ing rate * f’ (x) giảm -> đồ thị ở điểm E -> rồi tiếp tuc gán x=x -learning rate * f'(x) thì hàm f(x) 
cũng sẽ giảm dần dần đến giá trị nhỏ nhất. 


Ví dụ: chon x = 10, learning rate = 0.1, bước 2 sẽ cập nhất x = x - learning rate*f(x) = x - 
learning, rate *2*x, giá tri f(x) = x sẽ thay đổi qua các lần thực hiện bước 2 như sau: 


Lần X f(x) 
1 | 8.00 | 64.00 
2 | 6.40 | 40.96 
3 | 5.12 | 2621 
4 | 4.10 | 16.78 
5 | 3.28 | 10.74 
6 | 2.62 | 6.87 
7 | 2.10) 4.40 
8 | 1.68 | 2.81 
9 | 1.34] 1.80 
10 | 1.07 | 1.15 
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Giá tri f(x) sau số lần thực hiện bước 2 


Hình 3.7: Ví dụ về thuật toán gradient descent 


import numpy as np 
import matplotlib.pyplot as plt 
x = 10 


y= 0] 

for i in range(10): 
x=x_-0.1*2*x 
y.append (x**2) 


plt.plot(y) 

plt.xlabel('Só lán') 

plt.ylabel('f(x)') 

plt.title('Giá tri f(x) sau số lần thuc hiện bước 2') 


plt.show() 
Nhan xét: 
e Thuật toán hoạt động rất tốt trong trường hợp không thé tim giá trị nhỏ nhất bằng dai số 
tuyến tính. 
e Việc quan trọng nhất của thuật toán là tính đạo hàm của hàm số theo từng bién sau đó lặp lại 
bước 2. 


Việc chọn hệ số learning_rate cực ki quan trọng, có 3 trường hợp: 
e Nếu learning rate nhỏ: mỗi lần hàm số giảm rất ít nên cần rất nhiều lần thực hiện bước 2 để 
hàm số đạt giá trị nhỏ nhất. 
e Nếu learning, rate hợp lý: sau một số lần lặp bước 2 vừa phải thì ham sé đạt giá trị đủ nhỏ. 
e Nếu learning rate quá lớn: sẽ gây hiện tượng overshoot (như trong hình 3.8) và không bao 
giờ đạt được giá trị nhỏ nhất của hàm. 
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Hinh 3.8: Các giá tri learning rate khác nhau [13] 
Cách tốt nhất để kiểm tra learning, rate hợp lý hay không là kiểm tra giá tri hàm f(x) sau mỗi lần 


thực hiện bước 2 bằng cách vẽ đồ thị với trục x là số lần thực hiện bước 2, trục y là giá trị loss 
function tương ứng ở bước đấy. 


Very high learning rate 


Low learning rate 


Loss 


High learning rate 


Good learning rate 
Epoch # 


Hình 3.9: Loss là giá tri của hàm cần tìm giá trị nhỏ nhất, Epoch ở đây là số cần thực hiện bước 2 
[13] 


Ap dụng vào bài toán 
Ta cần tìm giá trị nhỏ nhất của hàm 
(EE GE e T i x 3 
J(wo,w1) = 2* N 0030 )= ;*y* Qvi) ) 
f(x) 


Tuy nhién do giá tri nhó nhát hàm f(x) gióng vói hàm w (với N >0) nên ta sé di tìm giá trị nhỏ 


nhất của hàm: 


1 N 
J(wo,w1) = 3*5 (wo - wi xj — yi)?) 


= 


3.4 
3.4.1 


3.4 Ma tran 55 


Việc tim giá tri lớn nhất hàm này hoàn toàn có thé giải được bằng dai só tuyến tính nhưng để giới 
thiệu thuật toán Gradient descent cho bai Neural network nên tôi sẽ áp dung Gradient descent luôn. 


Việc quan trọng nhất của thuật toán gradient descent là tính đạo hàm của hàm số nên giờ ta 
sẽ đi tính đạo hàm của loss function theo từng biến. 


Nhắc lại kiến thức h’(x) = f(g(x))’ =f(g)*g (x). Ví du: 


h(x) = (3x-- 1) thi f(x) = x”,ø(x) = 3x+1 => FQ) = ƒ (8) «g(x) = ƒ'Gx+ 1) * g'(x) = 
2x (3x+1)*3 =6x (3x+1). 


. eR * 1 
Tai 1 điểm (xi, yi) goi f(wo,w1) = p (wo +w *x; — yi)? 


Ta có: 


df 
—— — Wo + WỊ *Xi — yi 
dwo 


—— =x;* (wo + W1 *xj — yi) 


N 
dwa = Y (wo +wi *X; — yi) 


2A y * (wo +w1 * ) 
=) xix (wo TW *#X¡ — yi 
di L i 0 1 * Xi — Yi 
Ma tràn 


Ma trân la gi 


Ma trận là một mảng chữ nhật có m hàng và n cột, ta goi là ma trận m * n (số hang nhân số cột). 


Q1] G12 -.. Gln 
G21 G22... dồn 
Am] Am2 --- Amn 


Hình 3.10: Ma trận kích thước m*n 


Ví dụ về ma trận 3 * 4 


3.4.2 


3.4.3 
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Hinh 3.11: Ma trán kích thuóc 3*4 


Chi số ma trận thi hang trước cột sau ví du A[1, 2] = -5 (hàng 1, cột 2); A[3, 1] = 4 (hàng 3, cột 1) 


Phép nhôn ma tran 


Phép tính nhân ma tran A * B chỉ thực hiện được khi số cột của A bằng số hàng của B, hay A có 
kích thước m*n và B có kích thước n*k. 


Ma trận C = A * B thì C có kích thước m * k và Cli, j] =Y%_, Ai, Ha Blk, jl 


a b ME: ax + by 


ëd y| Iert dy 


Hinh 3.12: Vi du phép nhan ma tran 


COD) =A[HH]* BI +A] [2] + B(2][1] = ax + cy 


CRI] = ADI] B(0 [1] +412][2] «B(2][1] = bx + dy 


Element-wise multiplication matrix 
Ma tran A va B cung kích thuóc m*n thi phép tinh nay cho ra ma tran C cung kich thuóc m*n va 


CHj] = A[i,j] * B[i,j]. Hay là mỗi phan tử ở ma trận C bằng tích 2 phan tử tương ứng ở A và B. 
Kí hiệu C = A & B, ví du: 


411-012]. bj, bi9| Io * b11 a12 * b19 
a2] 093 boi Đao a5] * b2] ao» * bo» 


Hinh 3.13: Ví du element-wise 


3.4.4 Biéu dién bài toán 


Do với mỗi điểm x;, y; ta cần phải tinh (wo + w * x; — y;) nén thay vi tính cho từng điểm dữ liệu 
một ta sẽ biểu diễn dưới dạng ma trận, X kích thước n * 2, Y kích thước n * 1 (n là số điểm dữ liệu 
trong tập dữ liệu mà ta có). 
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lì " nn 
Wo + Q0] * £1 
; E Wo + W1 * #2 
J= AW = 
Wo + WI * Ly 


Hình 3.14: Biểu diễn bài toán dạng ma trận 


X[:, i] hiểu là ma trận kích thước n*1 lấy dữ liệu từ cột thứ i của ma trận X, nhưng do trong python 
chỉ số bắt đầu từ 0, nên cột đầu tiên là cột 0, cột thứ hai là cột 1, .... Phép tính sum(X) là tính tổng 
tat cả các phần tử trong ma trận X. 


X1 
Ale we 
D 

sum(X[:,1]) = £1 + £2 +... + En 
dJ : 
—— = sum(y — y) 
du 

LJ - 
&F — sum(X[,1] @ (8 — 9) 
dw, 
d.J T A 
-=X *(9-—y) 
dw 


Hinh 3.15: Biéu dién dao ham dang ma trân 


3.5 So sánh các loss function 


3.5.1 Mean Absolute Error, L1 Loss 


Mean Absolute Error (MAE) hay con được gọi là L1 Loss là một loss function được sử dung cho 
các mó hinh hói quy, dác biét cho các mó hinh hói quy tuyén tính. MAE dugc tinh bang tóng các 
trị tuyệt đối của hiệu giữa giá trị thuc (y;: target) và giá tri mà mô hình của chúng ra dự đoán (5;: 
predicted). 


mag Ei 
n 


(3.1) 
3.5.2 Mean Square Error, L2 Loss 


Mean Square Error (MSE) hay còn được gọi là L2 Loss là một loss function cũng được sử dung 
cho các mô hình hồi quy, đặc biệt là các mô hình hồi quy tuyến tính. MSE được tính bằng tổng các 


3.5.3 
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binh phương của hiệu giữa giá tri thực (y;: target) và giá tri mà mô hình của chúng ra du đoán (ý: 
predicted). 


i=l vi - jy 
n 


MSE = (3.2) 


So sánh MAE va MSE (L1 Loss va L2 Loss) 

Để tim điểm cực tiểu của các hàm số, thông thường cách đơn giản nhất chúng ta nghĩ đến chính 
là tìm đạo hàm của hàm số rồi tìm điểm mà tại đó đạo hàm của hàm số bằng 0. Như vậy sẽ có 1 
bước đạo hàm, hiển nhiên tìm đạo hàm của MSE sẽ đơn giản hơn rất nhiều so với MAE. Tuy nhiên, 
MAE thì dem lại kết quả tốt hơn đối với các dif liệu có outlier (điểm dị biệt - là những điểm có giá 
trị khác xa so với phan còn lại của dí liệu). 
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Hinh 3.16: Dữ liệu bi outlier 


Dau tiên hãy để ý đến MSE, ta có y; — $; = e, e” sé vô cùng lớn nếu e > 1. Nếu bậc của e càng lớn 
thì giá trị hàm Loss cũng càng lớn hơn. Vì vậy néu như chúng ta có 1 outlier trong bộ dữ liệu, giá 
trị của e sẽ vô cùng lớn, có thể tiến tới œ và khi đó, e? có thể sẽ tiến tới oo, khi đó giá tri MSE cực 
ki lớn. 


Ngược lại với MSE, nếu ta có giá trị e lớn (e > 1) thì | e | vẫn sẽ lớn, nhưng hiển nhiên nhỏ hơn 
nhiều so với e. 


Do đó khi tối ưu loss function, L2 phạt mạnh hơn với các điểm outlier và model sẽ bị kéo về 
phía outlier hơn. Do đó MSE bị ảnh hưởng bởi outlier và L1 tốt hơn đối với các dữ liệu có outlier. 


Tuy vậy đạo hàm của MAE (hay L1 Loss) tính toán khó hơn nhiều so với MSE (hay L2 Loss). Cùng 
thử tính toán nhé. 


3.6 
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Ta dat y; — y; =e. 


5 * e (3.3) 


2e x el (3.4) 


— 
G 
N 
— 
- 
I 


Dé dé hiểu hơn tai sao MAE và MSE có su khác nhau như váy với các outlier, hãy cùng làm 1 ví du 
đơn gián sau: Giả sử minh có 4 điểm dữ liệu 1, 2, 4, 33. Mình cùng tìm thử nghiệm theo L1 và L2 
nhé. 

Tìm min của: 

a) L1 = |x— 1| [x - 2| - |x —4| + |x—33| 

+) -œ <x < 1: L1 240-4x dat min = 36 tai x = 1 

+) 1 <x<2:LI = 38 - 2x đạt min = 34 tai x = 2 

+)2<x<4:LI=34 

+)4<x<33:LI =2x +26 > 34 

+) 33 <x € +00: L1 = 4x - 40 dat min > 4 * 33 - 40 = 92 

Vậy L1 đạt min = 34 tại 2 < x < 4 


b) L2 = (x— E xcd 433) 
L2 =2 x (x-1+x-2+x-4+x-33) = 0 © x= 10 
L2 đat min = 710 tai x = 10. 


Trong day só 1, 2, 4, 33 thì có 33 1a giá tri ngoai lai, L2 dat min lón hon rat nhiéu so véi L1. Và dé 


P 1+2+4 
ý hon thì thây L2 đat min tai trung bình (mean) cúa các giá tri a ¬ ee 10 con L1 dat min 


tại trung vi (median) của các giá trị đó => Do đó L1 sẽ tốt hơn với dữ liệu có các outlier. 


Tiêu chí xây dựng ham loss fucntion là không âm va loss càng nhỏ thì model càng tốt với dữ liêu. 
Từ đầu đến giờ có lẽ các bạn vẫn thắc mắc tại sao trong các hàm loss chỉ dùng trị tuyệt đối, bậc 2, 
thé bậc 2n thì sao? Câu trả lời là bạn chọn bậc càng cao thì càng bị ảnh hưởng bởi outlier. Ví dụ so 
sánh các loss function ở hình 3.17. Và 2 loss bạn hay gặp nhất sẽ là L1 (Mean Absoulte Error) và 
L2 (Mean Square Error). 


Giải bằng dai số tuyến tính 


w = [wo, w1, W2, ..., Wm]? là vecto hệ số cần phải tối ưu, wo thường hay được gọi là bias. 

xÒ = |. x, dl... xi | là dif liệu thứ i trong bó n số lượng dữ liệu quan sát được, mỗi dữ liệu 
có m giá trỊ. 

=> y =x0w 

Biéu dién tóng quát bai toán Linear Regression: 


Xe Rt) y e Ret bal ye R™! 
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—— LI (mae) 
4 —— L2 (mse) 
— L4(^4) 


T 
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Hình 3.17: So sánh các loss fucntion 


(1) 


xD wo wo  W]X] 

(2) (2) 
x=|* , W= We ,=Xw= Mũ wg 
xứ) Wm Wo + WIXI 


1,1 a DAMM 
Ham loss: L = 5 * Yi po -y0) 


x 


Ser + weih y (wo +wx” + 

+... + Wx? Ee y2) — (wo + wx? + 
H y y= 

fet Wn? y"? — (wo +wx + 


1 
Định nghĩa Euclidean norm: ||z||2 = (z? +25 +... +22)? — [zl = (ei +23 +... +2?) 


=> L= j*}||y— §|Š = tx Ly 


Giải thích chỉ tiết: 


+> (Xw)! =w†Xx? 


Wo 
Pr ox 22 xp |” 
Wm 
d(xw) — d(x®w) d(xw) d(xw) - 
md dw v | dwo dw dW | n 
— d(Xw) -Xx 


Xwll§ = 3*„x*(y— 


= Wo c W1XỊˆ +... + WmXm 


(i) (i) 


£ x 
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Wo 
+>wx = |"! £ di së = wo twirl) +... + Wath 
Lun) 
d(xw) 
(0) | ( 
i d(xw i 
=> lta, == dw, = Xi = XOT 
260) F 
d(wX) lu 
wX) _ yT 
dw =X 
d(w'Xw) _ Ty, diir). or Pel „T T 
+> >m =W X+ w wl X+w"X" =w" (X +X") (Nếu X đối xứng) 
=2w" X 
*Dé y XTX đối xứng 


E Dei — wi XT) (y —Xw) 9 yTy - yÏXw— w' XT y -w KI Xw 


= Al, —0-y!x — ((y* X) w).'--2w"X"X 
= yx - (x) w), +2W"XTX 
L—ylX-—y!X--2w'X'X 
== —yTX +2wT XTX 


=0 
€ 2wTXTX = Zei $ 
Se EE = yX 
e (XTX)xw = X'y 
e w = (XTX) '+X?y 


ag 


Nếu X”X khả nghịch, thi L có nghiệm duy nhất: w = (XTX) 
Nếu không khả nghịch, ta có thể sử dụng khái niệm giả nghịch đảo, bạn đọc có thể tự tìm 
hiểu thêm ở đây. 


Python code 


# -*- coding: utf-8 -*- 


import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 

#doan code sinh ra dt liêu 

ZnumÜfPoint = 30 

#noise = np.random.normal (0,1,num0fPoint).reshape(-1, 1) 
Zr = np.linspace(30, 100, numOfPoint).reshape(-1, 1) 

XN = z.shape[0] 

Zu = 15*z + 8 + 20*noise 
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#plt.scatter(a2, y) 


data = pd.read_csv('data_linear.csv').values 


N = data.shape [0] 

x = datal:, 0].reshape(-1, 1) 
y = data[:, 1].reshape(-1, 1) 
plt.scatter(x, y) 
plt.xlabel('mét vuóng') 
plt.ylabel('giá') 


x = np.hstack((np.ones((N, 1)), x)) 
w = np.array([0.,1.]).reshape(-1,1) 


numDfTteration = 100 
cost = np.zeros((num0fIteration, 1) ) 
learning_rate = 0.000001 
for i in range(1, num0fTteration): 
r = np.dot(x, w) - y 
cost[i] = 0.5*np.sum(r*r) 
w[0] -= learning rate*np.sum(r) 
# correct the shape dimension 


w[1] -= learning rate*np.sum(np.multiply(r, x[:,1].reshape(-1,1))) 


print (cost [i] ) 
predict = np.dot(x, w) 


plt.plot((x[0] [1], x[N-1][1]), (predict[0], predict[N-1]), 'r') 


plt. show () 
x1 = 50 
yi = w[0] + w[1] * x1 


print('Giá nhà cho 50m^2 là : ', y1) 


# Lưu w vói numpy.save(), dinh dang '.npy' 


np.save('weight.npy', w) 


# Doc file '.npy' chúa tham số weight 


w = np.load('weight .npy') 


# LinearRegression vói thu viên sklearn 


from sklearn.linear_model import LinearRegression 


data = pd.read_csv('data_linear.csv').values 


x = data[:, O].reshape(-1, 1) 
y = data[:, 1].reshape(-1, 1) 


plt.scatter(x, y) 
plt.xlabel('mét vuóng') 
plt.ylabel('gia') 


# Tao mô hinh hồi quy tuyến tinh 
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lrg = LinearRegression() 

# Train mô hành vdi data giá đất 
lrg.fit(x, y) 

# Đoán giá nhà dat 

y_pred = lrg.predict(x) 


p1t.plot((x[0], x[-1]),(y_pred[0], y_pred[-1]), 'r') 
plt.show() 


# Luu nhiều tham só vdi numpy.savez(), định dang '.npz! 
np.savez('w2.npz', a=lrg.intercept_, b-lrg.coef ) 

# Lay lai các tham sé trong file .npz 

k = np.load('w2.npz') 

lrg.intercept = k['a'] 

lrg.coef_ = k['b'] 


3.8 Bồi tap 
1. Thực hiện các phép nhân ma tran sau: 
(a) 
a 
b * (d e f) 
c 
(b) 
d 
(a b c)* e 
f 
(c) 
a b : 
c d|x (i h ,) 
- m n 
(d) 
1 X] 
1 X2 " (2) 
Se W2 
] Xa 


2. Tính đạo hàm các hàm số sau: 


(a) f(x) 2 (2x+1)Ÿ 


1 
(b) f(x) = Gei 
a. = 
e e 
(d) f(x) =x 


3. (a) Tu giải thích lại thuật toán gradient descent 
(b) Code python düng thuát toán gradient descent dé tim giá tri nhó nhát cüa hàm f(x) — 
x 2x45 
4. Tu tính dao ham cüa weight vói loss function trong bài toán linear regression và biéu dién lai 
duói dang ma trán. 
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5. Dựa vào code được cung cấp chỉnh 1 số tham số như learning_rate (tăng, giảm), số iteration 
xem loss function sé thay đổi thé nào. 

6. Giả sử giá nhà phụ thuộc vào diện tích và số phòng ngủ. Thiết kế 1 linear regerssion model 
và định nghĩa loss function cho bài toán trên. 

7. Giả sử bài toán vẫn như trên nhưng khi bạn vẽ đồ thị dữ liệu sẽ như thé này 


2000 


1500 


1000 


500 


—500 


30 40 50 60 70 80 90 100 
mét vuóng 


Model cho bài toán ban chon nhu thé nào? Code python cho bài toán dáy tuong tu nhu bài 
toán linear regression. Dữ liệu ở file data square.csv trên github. 


4.1 


4. Logistic regression 


Bài trước học về linear regression với dau ra là giá trị thực, thi ở bài này sẽ giới thiệu thuật toán 
logistic regression với đầu ra là giá trị nhị phân (0 hoặc 1), ví dụ: email gửi đến hòm thư của bạn có 
phải spam hay không; u là u lành tính hay ác tính,... 


Bởi toán 

Ngân hàng bạn đang làm có chương trình cho vay ưu đãi cho các đối tượng mua chung cư. Tuy nhiên 
gan đây có một vài chung cư rất hấp dẫn (giá tốt, vị trí dep,...) nên lượng hồ sơ người nộp cho chương 
trình ưu đãi tăng đáng kể. Bình thường bạn có thể duyệt 10-20 hồ sơ một ngày để quyết định hồ sơ có 
được cho vay hay không, tuy nhiên gần đây bạn nhận được 1000-2000 hồ sơ mỗi ngày. Bạn không thể 
xử lý hết hồ sơ và bạn cần có một giải pháp để có thể dự đoán hồ sơ mới là có nên cho vay hay không. 


Sau khi phân tích thì bạn nhận thấy là hai yếu tố chính quyết định đến việc được vay tiền đó 
là mức lương và thời gian công tác. Đây là dữ liệu bạn có từ trước đến nay: 


Lương | Thời gian làm việc | Cho vay 
10 1 1 
9 0.5 1 
5 2 1 
8 0.1 0 
6 0.3 0 
7 0.15 0 


Khi có dữ liệu ban visualize dữ liệu lên như hình 4.1 
Về mặt logic, giờ ta cần tìm đường thẳng phân chia giữa các điểm cho vay và từ chối. Rồi quyết 
định hồ sơ mới có nên có vay hay không từ đường đấy như hình 4.2 


4.2 
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e cho vay 
e từ chối 


kinh nghiệm (năm) 


mức lương (triệu) 
Hình 4.1: Đồ thị giữa mức lương, số năm kinh nghiệm và kết quả cho vay 


Ví dụ đường xanh là đường phân chia. Dự đoán cho hồ sơ của người có mức lương 6 triệu và 1 năm 
kinh nghiệm là không cho vay. 


Tuy nhiên, do ngân hàng đang trong thời kỳ khó khăn nên việc cho vay bị thắt lại, chỉ những 
hồ sơ nào chắc chắn trên 80% mới được vay. 


Vậy nên bây giờ bạn không những tìm là hồ sơ ấy cho vay hay không cho vay mà cần tìm 
xác suất nên cho hồ sơ ấy vay là bao nhiêu. 


Hay trong nhiều trường hợp khác trong bài toán phân loại người ta quan tâm hơn đến xác suất hay 
vì chỉ 1 hay 0. Vi dụ: bác sĩ sẽ thông báo ca mổ này 80% thành công cho người nhà bệnh nhân. 


Xóc suát 

Bạn được học xác suất từ cấp hai, cấp ba rồi đến toán cao cấp, nhưng có bao giờ bạn hỏi tại sao lại 
có xác suất không? Vì trong cuộc sống này có những sự việc không chắc chắn, ví dụ ngày mai trời 
có mưa không. Vậy nên xác suất ra đời để đo lường sự không chắc chắn ấy. 


Vậy xác suất là gì? "Các nhà toán học coi xác suất là các số trong khoảng [0,1], được gán tương ứng 
với một bién có mà khả năng xảy ra hoặc không xảy ra là ngẫu nhiên" [28]. Ví du bạn tung đồng xu 


có 2 mặt, thì xác suất bạn tung được mặt ngửa là 50% ( = 50/100 = 0.5). 


Nhận xét: 


4.3 
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e cho vay 
e tirchdi 


kinh nghiém (nam) 


= 5 6 7 8 9 10 
mức lương (triệu) 


Hình 4.2: Đường phân chia và dự đoán điểm dữ liệu mới 


* Xác suất của 1 sự kiện trong khoảng [0,1] 

* Sự kiện bạn càng chắc chắc xẩy ra thì xác suất càng cao. Ví dụ bạn lương cao và còn đi làm 
lâu lăm thì xác suất bạn được vay mua chung cư là cao. 

e Tổng xác suất của sự kiện A và sự kiện phủ định của A là 100% (hay 1). Ví dụ sự kiện A: 
tung đồng xu mặt ngửa, xác suất 50%; phủ định của sự kiện A: tung đồng xu mặt sắp, xác 
suất 50% => tổng 100%. 


Bạn sẽ thấy xác suất quan trọng hơn là chỉ 0 hay 1, ví dụ trước mỗi ca mổ khó, bác sĩ không thể chắc 
chắn là sẽ thất bại hay thành công mà chỉ có thể nói xác suất thành công là bao nhiêu (ví dụ 80%). 


Ham sigmoid 


Giờ ta cần tìm xác suất của hồ sơ mới nên cho vay. Hay giá trị của hàm cần trong khoáng [0,1]. Rõ 
ràng là giá trị của phương trình đường thang như bài trước có thể ra ngoài khoảng [0,1] nên cần 
một hàm mới luôn có giá tri trong khoảng [0,1]. Đó là ham sigmoid. 
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Hinh 4.3: D6 thi ham sigmoid 


Nhận xét: 
e Ham số liên tục, nhận giá tri thuc trong khoảng (0,1). 
e Hàm có đạo hàm tại mọi điểm (dé áp dung gradient descent). 


4.4 Thiết lập bài toán 


Moi người có để ý các bước trong bai linear regression không nhỉ, các bước bao gồm: 
1. Visualize dữ liệu 
2. Thiết lập model 

. Thiết lập loss function 

4. Tìm tham số bằng việc tối ưu loss function 

. Dự đoán dif liệu mới bằng model vừa tìm được 

Đây là mô hình chung cho bài toán trong Deep Learning. 


LA 


tA 


4.4.1 Model 
Với dong thứ i trong bang dữ liệu, gọi dl là lương và x\” là thời gian làm việc của hò sơ thứ i . 


pa? = 1) = f; là xác suất mà model dự đoán hồ sơ thú i được cho vay. 
p(x = 0) = 1 — ý; là xác suất ma model dự đoán hồ sơ thứ i không được cho vay. 
=> p(x = 1) +p =0) 21 


Hàm sigmoid: o(x) = er 
e 


4.4.2 


4.4 Thiết lập bai toán ó9 


Nhu bài trước công thức của linear regression là: y; = wo + w1 *x; thì giờ công thức của logistic 
regression là: 


1 
Y, = 0 (wo +w1 ld +w xxl) = 
1 + e rows 


wess 


Ở phan cuối mọi người sẽ thấy được quan hệ giữa xác suất va đường thang. 


Loss function 
Giờ cũng cần một hàm dé đánh giá độ tốt của model. Nhu bài trước là § càng gan y càng tốt, giờ 
cũng vậy: 
e Nếu hồ sơ thứ i là cho vay, tức y; = 1 thì ta cũng mong muốn y; càng gan 1 càng tốt hay model 
dự đoán xác suất người thứ ¡ được vay vốn càng cao càng tốt. 
e Nếu hồ sơ thứ i không được vay, tức y; = 0 thì ta cũng mong muốn y; càng gần 0 càng tốt hay 
model dự đoán xác suất người thứ ¡ được vay vốn càng thấp càng tốt. 
Với mỗi điểm (x, y;), gọi ham loss function L = —(y;*/øg(;) + (1 — yj) x log(1 — y;)), loss func- 
tion này có tên gọi là binary_crossentropy 


Mặc định trong machine learning nói chung hay deep learning thì viết log hiểu là In 


Thử đánh giá hàm L nhé. Nếu y; = 1 => L = —log(5;) 


0.0 0.2 0.4 0.6 0.8 1.0 
y 


Hình 4.4: Đồ thi ham loss function trong trường hợp y; = 1 


Nhận xét: 


4.5 
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e Ham L giảm dan từ 0 đến 1. 

e Khi model dự đoán ý; gần 1, tức giá trị dự đoán gần với giá trị that y; thì L nhỏ, xáp xỉ 0 
e Khi model dự đoán ý; gần 0, tức giá trị dự đoán ngược lại giá trị thật y; thì L rất lớn 
Ngược lại, néu y; = 0 => L = —log(1 — yj) 


0.0 0.2 0.4 0.6 0.8 1.0 


Hình 4.5: Đồ thi hàm loss function trong trường hợp y; = 0 


Nhận xét: 

e Hàm L tăng dan từ O đến 1 

e Khi model dự đoán f; gần 0, tức giá trị dự đoán gần với giá trị thật y; thi L nhỏ, xáp xi 0 

e Khi model dự đoán ý; gần 1, tức giá trị dự đoán ngược lại giá trị thật y; thì L rất lớn 
=> Hàm L nhỏ khi giá trị model dự đoán gần với giá trị thật và rất lớn khi model dự đoán sai, hay 
nói cách khác L càng nhỏ thì model dự đoán càng gần với giá trị thật. => Bài toán tìm model trở 
thành tìm giá trị nhỏ nhất của L 


1 ở 
Hàm loss function trên toàn bộ dữ liệu J = E VC «log (vi) + (1 — yi) *log(1 — y;)) 
i=l 


Chain rule 
: -— < dz dz dy 
Chain rule là gi? Nêu z = f(y) và y = g(x) hay z = f(g(x)) thì — = — « — 
dx dy dx 
Vi dụ cần tính dao hàm z(x) = (2x + 1)”, có thể thấy z = f(g(x)) trong đó f(x) =x, g(x) = 2x+ 1. 
Do đó áp dung chain rule ta có: 


4.5 Chain rule 7] 


dz dz dy d(2x+1)* d(2x+1) 
a dé a deo. dk DEEN 


dt? d(2x+1) 
dt d(2x+1) 


Có một cách dễ nhìn hơn để tinh chain rule là dùng biểu đồ 


Mọi người biết = 2(2x + 1) bằng cách đặt t = 2x41. 


2 
X (2x+1)^2 
= 1 
1 
1 


Hinh 4.6: Graph cho chain rule 


Số và bién (2, x, 1) viết ở bên trái và không có hình tròn bao quanh, các hình tron là các phép tinh 
Œ, +, 2) 


Giá trị của biểu thức sau khi thực hiện phép tính được viết màu đen ở phía trên đường sau 
phép tính. ví dụ, phép cộng của 2x và 1 có giá trị 2x+1, phép bình phương 2x+1 có giá tri là 
(2x+1)Ê. 


Giá trị của đạo hàm qua thực hiện phép tính được viết ở bên dưới với mực đỏ, ví dụ qua phép bình 

d(2x -1)? d(2x +1) d(2x) E" 

d(2x 4- 1) d(2x) d(x) l 

Ở bước cuối cùng dao hàm được viết là 1 (có hay không cũng được vì nhân với 1 van thé nhưng dé 

d(2x +1)? 
x 


phương, = 2(2x + 1), hay qua phép cộng = | và qua phép nhân 


bạn biết đấy là điểm kết thúc). Giờ cần tính thì bạn nhân tat cả các giá trị màu đỏ trên 


đường đi từ x đến (2x + 1)? 
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(2x+1)^2 


1 
1 
2x -1Y 
Do dó TTT L2. (214 Maia Ae (21) 
x 
: TP" d(x--1)? d(2x+1)? d(2x+1) d 
Thực ra nêu ban để ý biểu do chính là chain rule: E ) = PM ` * p La - = 
2*(2x+1)x*2=4x(2x+]) 
Chỉ là biểu đồ dễ nhìn hơn. 
Thử áp dung tính dao hàm của hàm sigmoid o (x) = i2 
, ] d(i) -1 d(e 
Nica a = ag 


dx x’ dx 


X 
1/(1+e*) 
1 
1 
Do dó: 
d(o(x)) _ deck 1 = 
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1 e" 1 (1 1 
* 
le lee 


~ l+e* i l+Le* - 


) = o(x) *(1—o(2)) 


Thực ra mọi người không cần vẽ đồ thị quá chi tiết như trên chỉ dùng để tách phép tính khi 
mà nó phức tạp 


1/(1+e *) 


4.5.1 Áp dung gradient descent 


Để áp dụng thuật toán gradient descent tìm tối ưu loss function minh cần tính dao ham của loss 
function với w. 


Với mỗi điểm (x, y;), gọi ham loss function 
L = —(y¡x log($;) + (1 — yj) x log(1 — ¥;)) trong đó ð; = 0 (wo + w\ xx +w xxl) = Ø(z) là 
gid trị mà model dự đoán, còn y; là giá trị thật của dữ liệu, z = wo + wi x + wz al, 


Nhắc lại đạo hàm cơ bản, ado) = o 

dx x 
d ` dL di, dz 
dwo B dy; dz dwo 


dL — d(y¡ixlog(ð;)+(1— yi) *log(1 — yi)) yi e FEN $i—yi («) 


dj; - d $; (1-5) 


Áp dung chain rule ta có: 
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O(Wo*W4X1*W2X2) 


(i) (i) 
Từ đồ thị ta thay: a = EE = ix (1 — i) 
Wo 


^ 


d(o(w+w,xx 


dwo 


dj;  d(Ø(wo+wl xxl) +w xx) NR : 
dw dw, .. Sr 


Otw) o 


dj;  d(Oo(wọo+wı*x A ^ 
EE =x) *¥i* (1— fi) 


dw dw» 

Do dó 

dL dL dy; Mr 1—yi X P. A ^ ^ 
ma E EES Fir- ii) =- iri) (1 — y 1) *Y1)) =y 
Tuong tu 

dL i S 

de, va 

dL Dora 

de; 2 Ay) 


Day là trên một điểm dữ liệu, trên toàn bộ dữ liệu 


dL d Me 

ao TR i — i 

Zu SN LO yi) 

dL 1 8 id ours 
—— = —* ð xi x (Yi — yi 
de N L 1 (fi — y¡) 
a 1 Ao. 
du NL HW) 


ll 
ca 


4.5.2 


4.5.3 
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Biểu diễn bai toán dưới ma tran 


(1) „ (1) 

1 zj 2) Yı , 

1 29 40 Yo Wo 
X = T A | y= |], w= |w 

.. D eee =e tU2 

`... " 


y =ơ(X xW) 


1 
J == ¿*sum(yOlog(9)+(1—y) 8log(l —4)) 


IN 
pi 


Nếu moi người thay các công thức biểu diễn dưới ma trận vẫn la lạ thì nên xem lại bài 1 và lấy giấy 
bút tự tính và biểu diễn lại. 


Sau khi thực hiện thuật toán gradient descent ta sé tìm được wo,w1,w2. Với mỗi hồ sơ mới 
x ta sẽ tính được phan trăm nén cho vay y; = o (wo +w] xa) dw» xxt) ) rói so sánh vói nguóng 
cho vay của công ty t (binh thường là t = 0.5, thời ki thiết chat thi là t = 0.8) nếu ý, >= t thi cho 


vay, khóng thi khóng cho vay. 


Ham sigmoid duoc chon dé dao hàm dep 
„ dL dL dë dz 


T. : 

SES dwo dji dz dwo 

dL ` d(yi*log(9;) +U —yi) *log(1—5))). — Va un & 
di dy; ÿ (1-9 9+(-ð) 


Ta có $ = 0 (z) nên ta cần tìm 1 hàm Ø(z) có đạo hàm a triệt tiêu mẫu số biểu thức (x): 


OY wy x 
> 3z =)(1- $) 


du J 
© | —— =d 
¡E ` 
1 1 
SIE JEDE 
Y 1-f 


€ logy —log(1—5) =z 


Q 
= 


«€» log E ~=Z 
I-y 
ap c ~=eé 
(eg: 
" ` I 
iy = = 
^ l+e I+e% Œ) 


Mọi người có thể thấy hàm sigmoid ngoài việc liên tục có đạo hàm tại mọi điểm, cho giá trị 
trong khoảng (0, 1) thì còn làm đạo hàm loss function đẹp hơn. 


4.6 
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Quan hệ giữa phán trăm và đường thang 


Xét đường thẳng y = ax+b, gọi foy) = y - (ax+b) thì đường thang chia mặt phẳng thành 2 miễn, 1 
mièn hàm f có giá trị dương, 1 miền hàm f có giá trị âm và giá tri f các điểm trên đường thẳng bằng 
0. 


Hình 4.7: Đường thẳng y = 3-x 


Ví dụ, xét đường thẳng y = 3-x, ham f(x,y) = y - 3 + x. 


e Tại điểm A(1,3) =>f(1,3)=3-3+1=1>0 
e Tại điểm B(2,1) nằm trên đường thang => f(2,1) 22-3120 
e Tại điểm C(1,1) =>f(1,1)=1-3+1=-1<0 


Giả sử ban lay mốc ở chính giữa là 50% tức là nếu hồ sơ mới dự đoán y; > 0.5 thi cho vay, còn nhỏ 
hơn 0.5 thì không cho vay. 


1 
$; > 0.5 <=> 2 y 205 
tie (wo-Ew iat -FW2*X2 à) 
<=>2 > nan... 
<=>e = (np tw nf vara) ) < Les e 
<=> —(wọ+ w1 *xj i) dw, "P ()) < «0 


<=> Wo +WI x0) 


wax 20 


(i) 


1 wax 


Tương tu y; < 0.5 <=> wo + wix*x «0 


=> đường thang wo + wj * x+ wa * y = 0 chính là đường phân cách giữa các điểm cho vay và 
từ chối. 

Trong trường hợp tổng quát bạn lấy xác suất lớn hơn t (0<t<1) thì mới cho vay tiền y; >t <=> 
; , 1 

e P» -In(- —1) 


wo +w *XỊ' T Wwo*x 


4.6 Quan hệ giữa phán tram va đường thẳng 
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kinh nghiệm (năm) 


mức lương (triệu) 


Hình 4.8: Đường phân chia t = 0.5 


kinh nghiệm (năm) 


mức lương (triệu) 


Hình 4.9: Đường phân chia của t = 0.8 


cho vay 
từ chối 


4.7 


4.8 
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Vi du t = 0.8, ban thấy đường phân chia gần với điểm màu đỏ hơn so với t = 0.5 thám chí một số hồ 
sơ cũ trước được cho vay nhưng nếu giờ nộp lại cũng từ chối. Đồng nghĩa với việc công ty thắt chắt 
việc cho vay lại. 


Ứng dụng 
* Spam detection: Dự đoán mail gửi đến hòm thư của bạn có phải spam hay không. 
* Credit card fraud: Dự đoán giao dịch ngân hàng có phải gian lận không. 
* Health: Dự đoán 1 u là u lành hay u ác tính. 
* Banking: Dự đoán khoản vay có trả được hay không. 
* Investment: Dự đoán khoản đầu tu vào start-up có sinh lợi hay không. 


Python code 


# Thêm thư viên 

import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 


# Ham sigmoid 
def sigmoid(x): 
return 1 / (1 + np.exp(-x)) 


# Load data tu file csv 

data = pd.read_csv('dataset.csv').values 
N, d = data.shape 

x = datal:, 0:d-1].reshape(-1, d-1) 

y = data[:, 2].reshape(-1, 1) 


# Vé data bang scatter 

plt.scatter(x[:10, 0], x[:10, 1], c='red', edgecolors='none', s=30, label='cho vay') 
plt.scatter(x[10:, 0], x[10:, 1], c='blue', edgecolors='none', s-30, label='từ chói') 
plt.legend(loc-1) 

plt.xlabel('müc luong (triéu)') 

plt.ylabel('kinh nghiệm (năm) ') 


X Thêm cột 1 vào dú liêu cx 
x = np.hstack((np.ones((N, 1)), x)) 


w = np.array([0.,0.1,0.1]).reshape(-1,1) 
# SỐ lan lặp bước 2 

numDfTteration = 1000 

cost = np.zeros((num0fIteration, 1)) 
learning_rate = 0.01 


for i in range(1, numOfIteration): 


# Tinh gia tri du doan 
y_predict = sigmoid(np.dot(x, w)) 
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costLi] = -np.sum(np.multiply(y, np.log(y_predict)) + \ 
np.multiply(1-y, np.log(1-y_predict))) 

# Gradient descent 

w = w - learning rate * np.dot(x.T, y predict-y) 

print (cost [i] ) 


# Vé đường phan cách. 

t=0.5 

plt.plot((4, 10), (—(w[0]+4*w[1]+ np.log(1/t-1))/w[2], -(w[0] + 10*w[1]+ \ 
np.log(1/t-1))/w[2]), 'g') 

plt. show() 


# Luu weight dùng numpy.save(), định dạng '.npy' 
np.save('weight logistic.npy', w) 

# Load weight tu file ''.npy' 

w = np.load('weight logistic.npy') 


# Logistic Regression dung thu vién sklearn 
from sklearn.linear_model import LogisticRegression 


# Load data tu file csv 

data = pd.read_csv('dataset.csv').values 
N, d = data.shape 

x = datal:, 0:d-1].reshape(-1, d-1) 

y = data[:, 2].reshape(-1, 1) 


# Vé data bang scatter 

plt.scatter(x[:10, 0], x[:10, 1], c='red', edgecolors='none', s=30, label='cho vay') 
plt.scatter(x[10:, 0], x[10:, 1], c='blue', edgecolors='none', s-30, label='từ chéi') 
plt.legend(1loc-1) 

plt.xlabel('müc luong (triéu)') 

plt.ylabel('kinh nghiệm (năm) ') 


# Tao mô hành Logistic Regression va train 
logreg = LogisticRegression() 
logreg.fit(x, y) 


# Lưu các bién của mô hinh váo mang 
wg = np.zeros( (3, 1) ) 

wg[0, 0] = logreg.intercept_ 

wg[1:, 0] = logreg.coef_ 


# Vé đường phan cách 

t=0.5 

plt.plot((4, 10), (-(wg[0]+4*[1]+ np.log(1/t-1))/wg[2], \ 
-(wg [0] + 10*wg[1]+ np.log(1/t-1))/wg[2]), 'g') 

plt.show() 


# Luu các tham số dùng numpy.savez(), đỉnh dang '.npz' 
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np.savez('w logistic.npz', a=logreg.intercept_, b=logreg.coef_) 
# Load các tham só dùng numpy.load(), file '.npz' 

k = np.load('w logistic.npz') 

logreg.intercept_ = k['a'] 

logreg.coef_ = k['b'] 


4.9 Bai tập 

1. Tai sao ham sigmoid được chon trong bai toán logistic regression? Dung chain rule tính dao 
ham ham sigmoid. 

2. Dùng chain rule tính dao ham loss function của logistic regression với từng biến. 

3. Biểu diễn dưới dang ma trận cho bài toán logistic regression. 

4. Chỉnh 1 số tham số như learning_rate (tăng, giảm), số iteration xem loss function sẽ thay đổi 
thé nào. 

5. Dung logistic regression giải bài toán XOR 


A |B | A XORB 
010 0 
011 1 
110 1 
1 1 0 


e Output =0 


e Output = 1 


X1 


Hình 4.10: Bài toán XOR 


Neural network ...................... 83 
Neural network lò gì 

Mô hình neural network 

Feedforward 

Logistic regression với toán tử XOR 

Bai tap 


Backpropagation .................... 97 
Bai toán XOR với neural network 

Mô hình tổng quát 

Python code 

Bai tâp 


5.1 


5.1.1 


5. Neural network 


Bài trước học về thuật toán logistic regression với giá trị dau ra là giá trị nhị phân. Tuy nhiên, 
logistic regression là một mô hình neural network đơn giản, bài này sẽ học mô hình neural network 
đầy đủ. 


Bạn nên hoàn thành 2 bài trước linear regression va logistic regression trước khi vào bài này. 
Trong bài này có khá nhiều kí hiệu và công thức, nên bạn nên chuẩn bị giấy bút để bắt đầu. 


Neural network lò gi 


Con chó có thé phân biệt được người thân trong gia đình và người lạ hay đứa trẻ có thể phân biệt được 
các con vật. Những việc tưởng chừng như rất đơn giản nhưng lại cực kì khó để thực hiện bằng máy 
tính. Vậy sự khác biệt nằm ở đâu? Câu trả lời nằm ở cấu trúc bộ não với lượng lớn các nơ-ron thần 
kinh liên kết với nhau. Liệu máy tính có thé mô phỏng lại cấu trúc bộ não để giải các bài toán trên ??? 


Neural là tính từ của neuron (nơ-ron), network chỉ cấu trúc, cách các nơ-ron đó liên kết với 
nhau, nên neural network (NN) là một hệ thống tính toán lay cảm hứng từ sự hoạt động của các 
nơ-ron trong hệ thần kinh. 


Hoat động cua cdc nơ-ron 
No-ron là đơn vị cơ ban cau tạo hệ thống thần kinh va là thành phan quan trọng nhất của não. Dau 
chúng ta gồm khoảng 10 triệu nơ-ron và mỗi nơ-ron lại liên kết với tầm 10.000 nơ-ron khác. 


Ở mỗi nơ-ron có phần thân (soma) chứa nhân, các tín hiệu đầu vào qua sợi nhánh (dendrites) 
và các tín hiệu đầu ra qua sợi trục (axon) kết nói với các no-ron khác. Hiểu đơn giản mỗi nơ-ron 
nhận dữ liệu đầu vào qua sợi nhánh và truyền dữ liệu đầu ra qua sợi trục, đến các sợi nhánh của các 
nơ-ron khác. 


Mỗi nơ-ron nhận xung điện từ các nơ-ron khác qua sợi nhánh. Nếu các xung điện này đủ lớn 
để kích hoạt nơ-ron, thì tín hiệu này đi qua sợi trục đến các sợi nhánh của các nơ-ron khác. => Ở 


5.2 
5.2.1 
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Neuron Anatomy 


Nucleus Axon terminals 


4 


Soma 
(cell body) 


Myelin 


Sheaths 
E) 
e 


Dendrites 


` 


A 


> 


Hinh 5.1: TÉ bao than kinh [14] 
mỗi no-ron cần quyết định có kích hoat nơ-ron đấy hay không. Tương tự các hoạt động của hàm 
sigmoid bài trước. 
Tuy nhiên NN chỉ là lấy cảm hứng từ não bộ và cách nó hoạt động, chứ không phải bắt chước toàn 


bộ các chức năng của nó. Việc chính của chúng ta là dùng mô hình đấy đi giải quyết các bài toán 
chúng ta cần. 


Mô hình neural network 
Logistic regression 


Logistic regression là mô hình neural network đơn giản nhất chỉ với input layer va output layer. 
Mô hình của logistic regression từ bài trước là: ? = o (wọ + w1 * x1 + w2 * x2). Có 2 bước: 
e Tính tổng linear: z = 1 * wọ +X1 #W +2 *W2 
e Ap dung sigmoid function: $ = o (z) 


Z = Wo + W4*X4+W2"X2 


5.2.2 


5.2.3 
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Để biểu diễn gọn lại ta sẽ gộp hai bước trên thành một trên biểu đồ như hình 5.2. 


Hình 5.2: Mô hình logistic regresion 


Hệ số wo được gọi là bias. Để ý từ những bài trước đến giờ dữ liệu khi tính toán luôn được thêm 1 
để tính hệ số bias wo . Tại sao lại cần hệ só bias? Quay lại với bài 1, phương trình đường thẳng sé 
thé nào nếu bó wo, phương trinh giờ có dạng: y = w xx, sẽ luôn di qua gốc tọa độ và nó không 
tổng quát hóa phương trình đường thẳng nên có thể không tìm được phương trình mong muốn. => 
Việc thêm bias (hệ số tự do) là rất quan trọng. 


Hàm sigmoid ở đây được gọi là activation function. 


Mô hình tổng quót 
Layer đầu tiên là input layer, các layer ở giữa được gọi là hidden layer, layer cuối cùng được gọi là 
output layer. Các hình tròn được gọi là node. 


Mỗi mô hình luôn có 1 input layer, 1 output layer, có thể có hoặc không các hidden layer. Tổng số 
layer trong mô hình được quy ước là số layer - 1 (không tính input layer). 


Ví dụ như ở hình trên có 1 input layer, 2 hidden layer và 1 output layer. Số lượng layer của 
mô hình là 3 layer. 


Mỗi node trong hidden layer và output layer : 
e Liên kết với tất cả các node ở layer trước đó với các hệ số w riêng. 
e Mỗi node có 1 hệ số bias b riêng. 
e Dién ra 2 bước: tính tổng linear và áp dung activation function. 


Kí hiệu 
Số node trong hidden layer thứ ¡ là / ©, 


Ma trân W#) kích thước HEI x 100 là ma trận hệ số giữa layer (k-1) và layer k, trong đó wid 
là hệ số kết nói từ node thứ i của layer k-1 đến node thứ j của layer k. 
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IZ 
Ss 


G 


Input layer Output layer 


Hidden layer 1 Hidden layer 2 


Hinh 5.3: Mô hinh neural network 


) 


Vector b(*) kích thước /# x 1 là hé số bias của các node trong layer k, trong đó Di la bias của node 


thit i trong layer k. 


Với node thứ i trong layer 1 có bias b thuc hiện 2 bước: 


z ge e 1-1 — SR LT ee A ^ 
e Tinh tong linear: z” = Ys all nạ wi) +00, là tong tat ca các node trong layer trước nhân 
với hệ sô w tương ứng, rôi cộng với bias b. 
e Ap dung activation function: ql” =o (P) 


Vector z#) kích thước /#®) x 1 là giá trị các node trong layer k sau bước tính tổng linear. 


Vector a kích thước 1) x1 là giá trị của các node trong layer k sau khi áp dung hàm acti- 
vation function. 
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1(0) = 2 


Input layer Output layer 
Hidden layer 1 Hidden layer 2 


Mô hinh neural network trên gồm 3 layer. Input layer có 2 node (1 (0) =2), hidden layer 1 có 3 node, 
hidden layer 2 có 3 node va output layer có 1 node. 


Do mỗi node trong hidden layer va output layer đều có bias nên trong input layer va hidden 
layer cần thêm node 1 dé tinh bias (nhưng không tính vào tổng số node layer có). 


Tai node thứ 2 ở layer 1, ta có: 
. z4) —Xp* wi) + x2 * ws) +b) 
1 1 
e as) =0(2)) 
Hay ở node thứ 3 layer 2, ta có: 


EE 
INS 
az = 6 (2; ) 


5.3 Feedforward 


Dé nhất quán vé mặt ký hiệu, goi input layer là a!) (= x) kích thước 2*1. 


d [aeu + a a ei? 
2) = z" = a * why) + al * why + al * wh) Ss VI 
al | ay ews) + ay) xw + ag) x wiy + by 


5.3.1 
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Tương tu ta có: 


z2) = (WO xa + p2) 
a) = ø(z(2)) 

z9) = (WA)? « 40) + p) 
$240) = o(z9)) 


a(0 > 0) 22) z(2) a EI emm z2) mmmà a) = y 


Hinh 5.4: Feedforward 


Biểu diễn dưới dang ma tràn 


Tuy nhiên khi làm việc với dữ liệu ta cần tính du đoán cho nhiều dữ liệu một lúc, nén goi X là ma 
trận n*d, trong đó n là số dữ liệu và d là số trường trong mỗi dữ liệu, trong đó e là giá tri trường 
dữ liệu thứ j của dữ liệu thứ i. Ví du dataset bài trước 


| Lương | Thời gian làm việc 
| 10 1 

| 5 2 

| 7 0.15 

| 6 1.8 


thin =4,d —2,xl = 10,3] Lal =6,x =2. 


cl 2d zi —(zIT— 
po | zP! afl. al] _ | (ety? 
i ` xi De —(ah F= 


Hình 5.5: Biểu diễn dang ma trận của nhiều dữ liệu trong dataset 


Do x!!! là vector kích thước d*1 tuy nhiên ở X mỗi dữ liệu được viết theo hàng nên cần transpose 
x/ thành kích thước 1*d, kí hiệu: —(a11)7— 


Goi ma trận Z® kích thước N x II trong đó p M lạ giá tri thứ j trong layer i sau bước tinh 
tong linear của dif liệu thứ k trong dataset. 


*** Kí hiệu (i) là layer thứ i và ki hiệu [k] là dữ liệu thứ k trong dataset. 


Tương tự, gọi ma trận AU kích thước  x/ trong đó a M là giá tri thú j trong layer i sau 
khi áp dung activation function của dữ liệu thú k trong dataset. 
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GJ l mole 
o Ey — Su — (ally? — 
z0) Be 2 ow GC aa 
¿e n z0) n A n — (2€) n = 
Do đó 
BEI (CMT x øØ) + (NI 
zo | (098)? _ | (eB) x w0 + @97 
GER (hl x at) + (3 
MIN 
xxw0 + | OY 
DÉI 


= X x W + HI 


Hình 5.6: Phép tính cuối cùng không đúng nhưng để viết công thức cho gon lại. 


Vậy là có thể tính được giá trị dự đoán của nhiều dữ liệu một lúc dưới dạng ma trận. 


Giờ từ input X ta có thể tính được giá trị dự đoán Y, tuy nhiên việc chính cần làm là di tim 
hệ số W và b. Có thể nghĩ ngay tới thuật toán gradient descent và việc quan trọng nhất trong thuật 
toán gradient descent là đi tim đạo hàm của các hệ số đối với loss function. Và việc tính đạo hàm 
của các hệ số trong neural network được thực hiện bởi thuật toán backpropagation, sẽ được giới 
thiệu ở bài sau. Và vì bài này có quá nhiều công thức sợ mọi người rói nên code sẽ được để ở bài 
sau. 


5.4 Logistic regression với toán tử XOR 


Phan này không bắt buộc, nó giúp giải thích việc có nhiều layer hơn thi mô hình sé giải quyết được 
các bài toán phức tạp hơn. Cụ thể là mô hình logistic regresion bài trước không biểu diễn được toán 


5.4.1 


5.4.2 
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tử XOR nhưng nếu thêm 1 hidden layer với 2 node ở giữa input layer va output layer thì có thể biểu 
diễn được toán tử XOR. 


AND, OR, XOR là các phép toán thực hiện phép tính trên bit. Thế bit là gi? bạn không cần 
quan tâm, chỉ cần biết mỗi bit nhận 1 trong 2 giá trị là 0 hoặc 1. 


NOT 

Phép tính NOT của 1 bit cho ra giá trị ngược lại. 
A | NOT(A) 
0 1 
1 0 


AND 


Phép tính AND của 2 bit cho giá trị 1 nếu cả 2 bit bằng 1 và cho giá trị bằng 0 trong các trường hợp 
còn lại. Bảng chân lý 


AIB|AANDB 
010 0 
0 1 0 
110 0 
1/1 1 


Giờ muốn máy tinh học toán tử AND, ta thấy là kết qua là 0 và 1, nên nghĩ ngay đến logistic 
regression với dữ liệu 


Xx | x2 y 
0/0 0 
0.1. 0 
1.0.0 
I |1 |1 
101 ® e 
0.8 4 
0.6 4 
0.4 4 
0.2 4 
00-1 e e 
0.0 02 0.4 0.6 0.8 10 


x1 


Hinh 5.7: Chấm xanh là giá trị 0, chấm đỏ là giá tri 1 
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Theo bai trước, thi logistic regression chính là đường thang phân chia giữa các điểm nên áp dụng 
thuật toán trong bai logistic regression ta tìm được wo = —1.5,w1 = 1,w2 = 1 


Hinh 5.8: X1 AND X2 


14 


1.2 


1.0 


0.8 


x2 


0.6 


0.4 


0.2 


0.0 


Hình 5.9: Đường thang y = 1.5-x phân chia 2 mièn dữ liệu 


Nhận xét, do phép tính NOT là đổi giá trị của bit, nên phép tính NOT(A AND B) có thể biểu 
diễn như hình trên với việc đổi màu các điểm từ đỏ thành xanh và xanh thành đỏ. Do đó đường 
phân chia không thay đổi và 2 miễn giá trị đổi dấu cho nhau => giá trị các tham số đổi dấu 
Wo = 1.5,w1] = —l,w2 ==] 
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Hinh 5.10: NOT (x; AND x2) 


5.4.3 OR 


Phép tính OR của 2 bit cho giá trị 1 nếu 1 trong 2 bit bằng 1 và cho giá trị bang 0 trong các trường 
hop con lai. Bang chan ly 


=| =| ol o| > 
=| ol =| o| W 
o 


Hinh 5.11: xi OR x; 


5.4 Logistic regression với toán tê XOR 93 


—0.25 


—0.50 


—0.75 


-1.00 


—0.50 -0.25 0.00 0.25 0.50 0.75 1.00 1.25 1.50 
x1 


5.44 XOR 


Phép tính XOR của 2 bit cho giá trị 1 nếu đúng 1 trong 2 bit bằng 1 và cho giá trị bằng 0 trong các 
trường hợp còn lại. Bảng chân lý 


A B|AXORB 
010 0 
011 1 
110 1 
1} 1 0 


Khi thiết lập bài toán logistic regression, ta có đồ thị 


Rõ ràng là không thể dùng một đường thắng để phân chia dữ liệu thành 2 miền. Nên khi bạn dùng 
gradient descent vào bài toán XOR thì bat kể ban chạy bước 2 bao nhiêu lần hay chỉnh learning rate 
thé nào thì vẫn không ra được kết quả như mong muốn. Logistic regression như bài trước không thé 
giải quyết được van dé này, giờ cần một giải pháp mới !!! 
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Ap dụng các kiến thức về bit ở trên lại, ta có: 


A |B | A XORB | AANDB | NOT (A ANDB) | A ORB | (NOT(A AND B) AND (A OR B)) | 
010 0 0 1 0 0 | 
0 |1 1 0 1 1 1 | 
110 1 0 1 1 1 | 
1|1 0 1 0 1 0 | 


Do đó: A XOR B = (NOT(A AND B) AND (A OR B)), vay để tính được XOR ta kết hop NOT(AND) 
và OR sau dó tính phép tính AND. 


x1 XOR x2 = (NOT(x4 AND x2)) AND (X4OR Xa) 


Hinh 5.12: Mó hinh XOR 


Nhin có vé rói nhi, cüng phán tích nhé: 
e node NOT(x; AND x2) chính là từ hinh 5.10, với 3 mũi tên chi đến từ 1,xị,x; với hệ số 
Wo, W1, w tương ứng là 1.5, -1, -1. 
e node tính xı OR x» là từ hình 5.11 
e node trong output layer là phép tính AND từ 2 node của layer trước, giá trị hệ só từ hinh 1 
mang xuóng. 
Nhận xét: mô hinh logistic regression không giải quyết được bài toán XOR nhưng mô hình mới thì 
giải quyết được bài toán XOR. Đâu là sự khác nhau: 
* Logistic regression chi có input layer va output layer 
* Mô hình mới có 1 hidden layer có 2 node ở giữa input layer va output layer. 
=> Càng nhiều layer va node thì càng giải quyết được các bài toán phức tạp hơn. 


5.5 Bồi lập 


1. (a) Tại sao hàm activation phái non-linear? Điều gi xây ra néu hàm linear activation được 
sử dụng? 
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(b) Tính output 1 Neural Network don gian (2 nodes input layer, 2 nodes hidden layer, 1 
node output layer) với hàm activation f(x) = x + 1 cho tất cả các node, tat cả các hệ số 
w=l1vab=0. 

2. Tai sao cần nhiều layer và nhiều node trong 1 hidden layer? 
3. Code python cho mang neural network với 1 hidden layer, sigmoid activation. 


6.1 


6. Backpropagation 


Bài trước đã học về mô hình neural network va feedforward, giờ ta cần đi tìm hệ số W va b. Có thể 
nghĩ ngay tới thuật toán gradient descent và việc quan trọng nhất trong thuật toán gradient descent 
là đi tim đạo hàm của các hệ số đối với loss function. Bài này sé tính đạo hàm của các hệ số trong 
neural network với thuật toán backpropagation. 


Bạn nên hoàn thành bài neural network trước khi bắt đầu bài này và bài này là không bắt buộc để 
theo các bài tiếp theo trong sách. 


Bai toán XOR với neural network 
Bang chân ly cho toán xu XOR 


—|—|C|cCl> 


B 
0 0 
1 
0 
1 


Bài trước đã chứng minh là mô hình logistic regression trong bài 2 không thể biểu diễn được toán 
tử XOR. Để biểu diễn toán tử XOR ta cần thêm 1 hidden layer với 2 node. 


Model 
Nhắc lại kiến thức bài trước: 
e Mô hình trên có 2 layer (số lượng layer của mô hình không tinh input layer) 
* Mô hình: 2-2-1, nghĩa là 2 node trong input layer, 1 hidden layer có 2 node va output layer có 
1 node. 
* Input layer va hidden layer luôn thêm node 1 dé tính bias cho layer sau, nhưng không tính 
vào số lượng node trong layer 
e Ő mỗi node trong hidden layer va output layer đều thực hiện 2 bước: tinh tổng linear và áp 
dung activation function. 
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w(2) . p(2) 


z? a, 2)=9 


w21(2) 


* Các hệ só và bias tương ứng được ký hiệu nhu trong hinh 


Feedforward 
$ zP = pi +X] xw) +X2 wo) 
e a = oki) 
$ z4) = DA +X] x wll +X2 xw) 
1 
e a = et 
2) 2 


LM M +a onl 
«scd = ate) 
Viét dudi dang ma tran 


O = = D 


AQ) = ơ(Z0)) 
Y =A® = 6(Z2)) 


Loss function 


Ham loss fucntion vẫn dùng giống như trong bài 2 


Với mỗi điểm Le. y;), gọi hàm loss function 
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L= —(yix log (Si) + (1 — yi) *log(1 — 51) 


Ham loss function trên toàn bộ dữ liệu 
N 


J= — Y 6i*log($;) +(1—y;)*log(1—;)) 
i=l 


Gradient descent 


Để áp dung gradient descent ta cần tính được dao ham của các hệ số W va bias b với ham loss 
function. 
+ Kí hiệu chuẩn về đạo hàm 
e Khi ham f(x) là hàm 1 biến x, ví dụ: f(x) =2*x+1. Dao hàm của f đối với biến x kí hiệu là 
df 
dx 


e Khi ham f(x, y) là hàm nhiều biến, ví dụ f (x,y) = x + ye Đạo ham f với bién x kí hiệu là 
9f 


ER 


Với mỗi điểm (x, y;), hàm loss function 


L = —(yi«log(9;) + (1 —y;) *log(1 — 5;)) trong đó 5; = a) = o (aP xw® La D OD +6) Tà 
giá tri mà model dự đoán, con y; là giá trị thật của dữ liệu. 
oL A(y; x log(¥;) + (1 — yi) log(1—5;)) ` (i 1 — yj 


dộ, - Ov; şi (1-59) 


) 


Tính dao hàm L với w 2,5?) 
aL dL độ 


Ap dung chain rule ta có: n= 2 
ab? di gp? 


2,2) 


z014 Baq w11 raw (2) 


w14(2) ÿ" (0-9) 
nta 

BEA wo42) 

wo (2) 
a 0 


Từ đồ thị ta thay: 
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95; 

= yi* (1— yi) 
ap? 
95; 

=a,’ x*yj*(1—yij) 
aw? : 
2h mai * yox (1—y;) 
QW 
dr 

— wi xfx (1 —);) 
dal” S 
95i 

Wa, xfx (1 —yj) 
das) 21 

Do đó 

GEET EE 

=A = n X Yi Yi) ==Vi Yi yi) *Yi)) = Yi Yi 
202 Y gy? A (Un 

Tuong tu 

OL ) 
—A =a *(i-yi) 
awl? : 
oL tế, cx 
EE 
2w) S 
oL (cs 
vw iy) 
dal” 11 
oL y nóc 

= wy * (fi — yi) 
dell 21 


Biểu diễn dưới dang ma trận 


*** Lưu ý: đạo hàm của L đối với ma trận W kích thước m*n cũng là một ma trận cùng kích thước 
m*n. 


OL OL 
SCD ow 
AL aL é 
— ĝua ÖA 
Ow son’ Sane 
OL OL 
Omni """ Wm 


Do dó, Kê (a ete = ($ — Y) x (WO), phép tính 


oJ 7 
aeg = (sum(? Y)", 


owe) - db 3A8) 
sum tính tong các cột của ma trận. 
wi wig 
W = wo wa} =>sum(W) = (wy + wo + way, 1012 + 1093 + 1032) 
Wa W32 
re 011 + Wo, + t3 
(sumi W p? " a : 


wi + Wa + Um 
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Vậy là đã tính xong đạo hàm của L với hệ số WO, 52. Giờ sẽ đi tính dao hàm của L với hệ só 
wi) ; HI Khoan, tưởng chi cần tính dao hàm của L với các hệ số W và bias b, tai sao cần tinh dao 
hàm của L với A“) ??? Khi tinh dao hàm của hệ só và bias trong layer trước đấy sẽ cần dùng đến. 


Tính dao ham L với w(1),p) 
Do at = c (bi? +x] wl) +x2 e wll 


P 5 (1) 
Ap dung chain rule ta có: — = Si * — 
Ob; da,’ Obi 


Ta co 
1 1 1 
day) _ day 4) Din all 
00 Eege) i 
Ob; z Ob 
Do dó 
OL ` 
Em = al" * (1 zal «wl? * (Yi — yi) 
1 
Tuong tu 
OL x 
com ng xal? * (1 a”) «wo * 9j; — yi) 
Wi 
OL 
awe? =x] «al «(1 as) «wO) x (9; — yj) 
Wiz 
OL 
oot xal? «(1 a) «wO « (, yi) 
21 
OL £ 
ow — x «al x (1 aL”) swe) * (ji; — yi) 
22 


Viết dưới dang ma trận 


9J at dall 2Z0) 
aw) 2A0) *2z0)”aw0@) 


(1). 


Có thể tạm viết dưới dang chain rule là 


oJ i 
Tris ree ad ELA QT 
Tü trén dà tính dugc 3A) (Y —Y)«(W’) 


Dao hàm cüa hàm sigmoid aos) =0(x)* (1—o0(x)) vaA = 6(Z)), nên trong (1) có thể hiểu 
x 
JAM 
342 ER — AO 
dro Ax (1—A‘’’) 


: e AG) : 
Cuối cùng, Z) = X «W(U +5 nén có thể tam hiểu 2w0) — X, nó gióng như f(x) =axx+b=> 


er 
de dy. 


: NM oJ A 
Kết hợp tat cả lại 7, = XT x ((£ —Y)«(WO)")gAU &(1—A0)) 
Thé khi nào thì dùng element-wise (5), khi nào dùng nhân ma trận (+) ? 
e Khi tính đạo hàm ngược lai qua bước activation thi dùng (8) 
e Khi có phép tính nhân ma trận thi dùng (+), nhưng đặc biệt chú ý đến kích thước ma trận và 
dùng transpose nếu cần thiết. Ví dụ: ma trận X kích thước N*3, W kích thước 3*4, Z = X * 
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oJ oJ oJ oJ 
— » $ " — yT x E T 
W sé có kích thuóc N*4 thi aw X * (57) va 3x (s5)*W 
Tương tự, d = sum(((£ —Y) (WQ))T) g AQO)T 


Vậy là đã tính xong hết dao hàm của loss function với các hệ số W va bias b, giờ có thé áp 
dung gradient descent để giải bài toán. 


OL " , " 
Giờ thử tính EE 6 bài nay thi khóng can vi chi có 1 hidden layer, nhung néu nhiéu hon 1 
xi 


hidden layer thi ban càn tính buóc này dé tính dao hàm vói các hé só truóc dó. 


zd) ud) 


Hinh 6.1: Duóng màu dó cho wy , đường màu xanh cho x; 


Ta thay wy chỉ tac động đến at), cụ thể là a = ơ(œ) +x * wy +x * wi) 


Tuy nhién x, khóng nhüng tác dóng dén alU mà còn tác động đến all. nên khi áp dung chain rule 
y 8 8 g 1 g 2 


à aÚ) 
va ay’. 


tính đạo hàm của L với x; cần tính tổng đạo ham qua ca at 
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a — OL dai) | OL aj qj (y ah (2) (1) Œ) 
H = Is i— Ji 
0x1 ga S đxị das n 0x1 wiy xi *(l—aj )*wi *(yi 5i) +wiz xa, * 


1 
(1—a$))xwl}*(yi— $i) 


6.2 Mô hình tổng quát 


J0) =2 


Input layer Output layer 
Hidden layer 1 Hidden layer 2 


Hình 6.2: Mô hình neural network 


Bạn có thể xem lại biểu diễn dang ma trận với neural network ở bài trước. 


oJ A 
1. Bước 1: Tinh trong đó Y = A®) 


oY’ 
2. Bude 2: Tinh Za fals Dech OL = unt Sh Self in OF = 
(La 947, oy 
3. Buóc 3: Tính m = (A07 x a ® J; bei = (sum As y và tính 
2 
345 7 Gain 9 gg e (Y 
4. Buóc 4: Tính -2 = (AMT x a ® A h a = (sum( Air ® a trong 


đó AO =X 
Nếu network có nhiều layer hơn thì cứ tiếp tục cho đến khi tinh được đạo ham của loss function J 
với tất cả các hệ số W và bias b. 


6.3 
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A dal — ! 
Néu hàm activation là sigmoid thi 3z0 ^ A0 & (1 AG) 


Ó bài truóc quá trinh feedforward 


a(0) E : > 1) ar af > z(2) > a2) [ | > z(3) = a(3) = y 


Hinh 6.3: Qua trinh feedforward 
Thi ở bài nay quá trình tính dao ham ngược lại 


os os os os os 


ew) — QbnD os 4 Ow?) 22) os Ow?) 
Ệ Cal) d 


Hinh 6.4: Quá trinh backpropagation 


Day là vi sao thuật toán được goi là backpropagation (lan truyền ngược) 


Python code 


X Thêm thư vién 
import numpy as np 
import pandas as pd 


# Ham sigmoid 
def sigmoid(x): 
return 1/(1+np.exp(-x)) 


# Dao ham ham sigmoid 
def sigmoid_derivative(x): 
return x*(1-x) 


# Lóp neural network 
class NeuralNetwork: 
def | init. (self, layers, alpha=0.1): 
# Mó hinh layer ví du [2,2,1] 
self.layers - layers 


# Hệ số learning rate 
self.alpha = alpha 


# Tham số W, b 
self.W = [] 
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self.b = [] 


# Khởi tao các tham số ở moi layer 

for i in range(0, len(layers)-1): 
w_ = np.random.randn(layers[i], layers[i+1]) 
b. = np.zeros((layers[i*1], 1)) 
self .W.append(w_/layers [i] ) 

self .b.append(b_) 


# Tóm tắt mô hành neural network 
def | repr. (self): 
return "Neural network [{}]".format("-".join(str(1) for 1 in self.layers)) 


X Train mồ hành vdi dé liêu 
def fit partial(self, x, y): 
A= [x] 


# quá trinh feedforward 

out - A[-1] 

for i in range(0, len(self.layers) - 1): 
out = sigmoid(np.dot(out, self.W[i]) + (self.b[i].T)) 
A.append(out) 


# quá trinh backpropagation 

y = y.reshape(-1, 1) 

dA = [-Cy/AL-A]. = (1-327 CE-AE-1]22] 
dw - [] 

db = [] 


for i in reversed(range(0, len(self.layers)-1)): 
dw. = np.dot((A[i]).T, dA[-1] + sigmoid_derivative(A[i+1])) 
db. = (np.sum(dA[-1] * sigmoid_derivative(A[i+1]), 0)).reshape(-1,1) 
dA_ = np.dot(dA[-1] * sigmoid derivative(A[i*1]), self.W[i].T) 
dW. append (dw_) 
db. append (db_) 
dA.append(dA_) 


# Đảo ngược dW, db 
dW = dW[::-1] 
db = đb[::-1] 


# Gradient descent 
for i in range(0, len(self.layers)-1): 
self .W[i] = self .W[i] - self.alpha * dW[i] 
self.b[i] = self .blil - self.alpha * đb[i] 


def fit(self, X, y, epochs=20, verbose=10): 
for epoch in range(0, epochs): 
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self .fit_partial(X, y) 
if epoch % verbose == 
loss = self.calculate_loss(X, y) 
print("Epoch {}, loss {}".format(epoch, loss)) 
# Dự đoán, 
def predict(self, X): 
for i in range(0, len(self.layers) - 1): 
X = sigmoid(np.dot(X, self.W[i]) + (self.b[i].T)) 
return X 
# Tinh loss function 
def calculate_loss(self, X, y): 
y_predict = self.predict(X) 
#return np.sum((y_predict-y)**2)/2 
return -(np.sum(y*np.log(y predict) + (1-y)*np.log(1-y_predict))) 
64 Baitáp 


1. Tinh backpropagation với neural netwrok có 1 hidden layer da implement từ bai trước. 


Giới thiệu vé xử ly ảnh.............. 109 
Anh trong máy tính 

Phép tính convolution 

Bài tâp 

Convolutional neural network ....... 123 


Thiét làp bài toán 

Convolutional neural network 

Mang VGG 16 

Visualizing Convolutional Neural Network 
Bài tàp 


Giới thiệu keras va bài toán phán loai ánh 
139 

Giói thiéu vé keras 

MNIST Dataset 

Python code 

Ứng dung cúa việc phan loai anh 

Bài tap 


Ung dung CNN cho 6 tô tu Idi 
Giới thiệu mô phóng 6 tó tu lái 

Bài toán 6 tó tu Idi 

Python code 

Ap dung model cho 6 tô tu Idi 

Bài tap 


7.1 


Ảnh trong máy tính 
Hệ màu RGB 


RGB viết tắt của Red (đỏ), Green (xanh lục), Blue (xanh lam), là ba màu chính của ánh sáng khi 
tách ra từ lăng kính. Khi trộn ba màu trên theo tỉ lệ nhất định có thể tạo thành các màu khác nhau. 


Hình 7.1: Thêm đỏ vào xanh lá cây tạo ra vàng; thêm vàng vào xanh lam tạo ra trắng [19] 


Ví dụ khi bạn chọn màu ở đây. Khi bạn chọn một màu thì sẽ ra một bộ ba số tương ứng (r,g,b) 
Với mỗi bộ 3 số r, g, b nguyên trong khoảng [0, 255] sẽ cho ra một màu khác nhau. Do có 256 cách 
chọn r, 256 cách chọn màu g, 256 cách chọn b => tổng số màu có thể tạo ra bằng hệ mau RGB là: 
256 * 256 * 256 = 16777216 mau !!! 


110 Chương 7. Giới thiệu về xử lý ánh 


Pick a Color: Selected Color: 


White Text 


shadow, 


Or Enter a Color: 


Color value OK 


#66ff99 


El reb(102, 255, 153) 


Or Use HTML5: hs1(140, 100%, 70%) 


Hình 7.2: màu được chon là rgb(102, 255, 153), nghĩa la r=102, g=255, b=153. 


7.1.2 Ảnh màu 


Ví dụ về ảnh màu trong hình 7.3 


Khi bạn kích chuột phái vào ảnh trong máy tính, bạn chon properties (mục cuối cùng), rồi chon tab 
details 


we mathematical bridge Properties x 


General Security Details Previous Versions 


Property Value A 
800 x 600 

Width 800 pixels 

Height 600 pixels 


Ban sẽ thay chiều dai ảnh là 800 pixels (viết tat px), chiều rộng 600 pixels, kích thước là 800 * 600. 
Trước giờ chỉ học đơn vi do là mét hay centimet, pixel là gì nhỉ ? 


Theo wiki, pixel (hay điểm ảnh) là một khối màu rất nhỏ và là đơn vị cơ bản nhất để tạo nên một 
bức ảnh kỹ thuật số. 


Vậy bức ảnh trên kích thước 800 pixel * 600 pixel, có thể biểu diễn dưới dạng một ma trận 
kích thước 600 * 800 (vì định nghĩa ma trận là số hàng nhân số cột). 
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Hinh 7.3: Mathematical bridge, Cambridge 


UNN Wy 2 se 11 800 
wa 1 W22 `... W2800 
nr 600.2 ++ ge 


Trong đó mỗi phan tử w;; là một pixel. 


Như vậy có thể hiểu là mỗi pixel thì biểu diễn một màu và bức ảnh trên là sự kết hợp rất nhiều pixel. 
Hiểu đơn giản thì in bức ảnh ra, kẻ 6 vuông như chơi cờ ca rô với 800 đường thang ở chiều dai, 600 
đường ở chiều rộng, thì mỗi ô vuông là một pixel, biểu diễn một cham mau. 


Tuy nhiên để biểu diễn 1 màu ta cần 3 thông số (r,g,b) nên gọi wi; = (rij, gij; bij) dé biểu diễn dưới 
dạng ma trận thì sẽ như sau: 


(100,100,50) (101,112,3) (131,20,80) 
(150,210,130) (10,120,130) (111,120,130) 
(10,260,30) (200,20,30) (100,20, 3) 


Hình 7.4: Ảnh màu kích thước 3*3 biểu diễn dang ma trận, mỗi pixel biểu diễn giá trị (r,g,b) 


112 
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Để tiện lưu trữ và xử lý không thể lưu trong 1 ma trận như thé kia mà sẽ tách mỗi giá trị màu trong 


mỗi pixel ra một ma trận riêng. 


100 101 131 100 
150 10 111 210 
10 200 100 260 


R 


112 
120 
20 


G 


o0 3 80 
a 130 130 130 
20 30 30 3 


B 


Hinh 7.5: Tach ma trận trên thành 3 ma trận cùng kích thước: mỗi ma trận lưu giá tri từng màu khác 


nhau red, green, blue 


Tóng quát 


(ria, gia, 514) 
(72,1, 92,1, 021) (12,2, 92,2, 62,2) 


(7600.1; 9600.1. 0600.1) (7600,2; 9600.2. 0600.2) 


Ma T12 71,800 911 91,2 
u F21 T22 T2 800 92,1 92,2 
T6001 7600,2 T600,S00 96001 9600,2 


(r1,s00 ; 1,800, b1.500 ) 
(72,500 , 92,800, 62,800 ) 


(600,800 + 600,800 ; 0600,00 ) 


91,800 bịi bra P1 am 
92,800 bại b22 b» am 
600,800 beoo,1 600.2 b600,800 


Hinh 7.6: Tach ma trận biểu diễn màu ra 3 ma trận, mỗi ma trận luu giá tri 1 màu. 


Mỗi ma trận được tách ra được goi là 1 channel nén ảnh màu được goi là 3 channel: channel red, 
channel green, channel blue. 


Tóm tat: Ánh màu là một ma trận các pixel mà mỗi pixel biểu diễn một điểm màu. Mỗi điểm màu 
được biểu diễn bằng bộ 3 số (r,g,b). Để tiện cho việc xử lý ảnh thì sẽ tách ma trận pixel ra 3 channel 
red, green, blue. 


Tensor là gi 


Khi dữ liệu biểu diễn dạng 1 chiều, người ta gọi là vector, mặc định khi viết vector sẽ viết dưới 
dạng cột. 


Khi dữ liệu dang 2 chiều, người ta gọi là ma trận, kích thước là số hàng * số cột. 


vy W11 LU12 Win 

U2 - 1021 1022 Wn 
U = „W = 

Un Um] Wm2 U mn 


Hinh 7.7: Vector v kích thuóc n, ma tran W kích thuóc m*n 
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Khi dữ liệu nhiều hơn 2 nhiều thì sé được goi là tensor, ví dụ như dữ liệu có 3 chiều. 


Để ý thì thấy là ma trận là sự kết hợp của các vector cùng kích thước. Xếp n vector kích thước m 
cạnh nhau thì sẽ được ma trận m*n. Thì tensor 3 chiều cũng là sự kết hợp của các ma trận cùng kích 
thước, xếp k ma trận kích thước m*n lên nhau sẽ được tensor kích thước m*n*k. 


h 


Hình 7.8: Hình hộp chữ nhật kích thước a*b*h 


Tưởng tượng mặt đáy là một ma trận kích thước a * b, được tạo bởi b vector kích thước a. Cả hình 
hộp là tensor 3 chiều kích thước a*b*h, được tạo bởi xếp h ma trận kích thước a*b lên nhau. 


Do đó biểu diễn ảnh màu trên máy tính ở phần trên sẽ được biểu diễn dưới dạng tensor 3 chiều kích 
thước 600*800*3 do có 3 ma trận (channel) màu red, green, blue kích thước 600*800 chồng lên 


nhau. 


Vi dụ biểu diễn ảnh màu kích thước 28*28, biểu diễn dưới dạng tensor 28*28*3 


color image is 3rd-order tensor 


d 


Hình 7.9: Anh màu biểu diễn dưới dang tensor [1] 
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7.1.4 Ảnh xám 


Hình 7.10: Ảnh xám của mathematical bridge 


Tương tự ảnh màu, ảnh xám cũng có kích thước 800 pixel * 600 pixel, có thể biểu diễn dưới dạng 
một ma trận kích thước 600 * 800 (vì định nghĩa ma trận là số hàng nhân số cột). 


(ut W12 U1.800 
W21 W22 tU2 800 
me 6000.2 --- e" 


Tuy nhiên mỗi pixel trong ánh xám chi cần biểu diễn bằng một giá tri nguyên trong khoảng từ 
[0,255] thay vì (r,g,b) như trong ảnh màu. Do đó khi biểu diễn ảnh xám trong máy tính chỉ cần một 
ma trận là đủ. 


7.2 


7.2.1 
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0 215 .. 250 


244 255 .. 12 
Hinh 7.11: Biéu dién ánh xám 


Giá tri 0 là màu den, 255 là mau tráng va giá tri pixel càng gan 0 thi càng tói và càng gan 255 thi 
càng sáng. 


Chuyén hé màu cüa ánh 


Mỗi pixel trong ảnh màu được biểu diễn bang 3 giá trị (r,g,b) còn trong ánh xám chỉ can 1 giá tri x 
để biểu diễn. 


Khi chuyển từ ảnh màu sang ảnh xám ta có thể dùng công thức: x = r * 0.299 + g * 0.587 + 
b * 0.114. 


Tuy nhiên khi chuyển ngược lại, ban chỉ biết giá tri x và can di tim r,g,b nén sé không chính 
xác. 


Phép tính convolution 


Convolution 


Dé cho dé hinh dung tôi sé lấy ví du trên ảnh xám, tức là ảnh được biểu diễn dưới dang ma tran A 
kích thước m*n. 


Ta định nghĩa kernel là một ma trận vuông kích thước k*k trong đó k là số lẻ. k có thể bằng 
1, 3, 5, 7, 9,... Ví dụ kernel kích thước 3*3 


Kí hiệu phép tinh convolution (&), kí hiệu Y = X @W 


Với mỗi phan tử x; j trong ma trận X lấy ra một ma trận có kích thước bằng kích thước của 
kernel W có phan tử x; làm trung tâm (đây là vì sao kích thước của kernel thường lẻ) gọi là ma trận 
A. Sau đó tính tổng các phần tử của phép tính element-wise của ma trận A và ma trận W, rồi viết 
vào ma trận kết quả Y. 
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0 0 1 0 = 
0 0 1 1 0 1 0 1 
0 1 1 0 0 
X W Y 


Ví dụ khi tính tai x22 (ô khoanh đỏ trong hình), ma trận A cùng kích thước với W, có x22 làm trung 
tâm có màu nén da cam nhu trong hình. Sau đó tính y¡¡ = sum(A QW) = xy * W11 +X12 * W12 + 
X13 * W13 + X21 * W21 F X22 * W22 + X23 * W23 + X31 * W31 X32 * W32 +x33 * W33 = 4. Và làm tương tự 
với các phần tử còn lại trong ma trận. 


Thé thì sé xử lý thé nào với phan tử ở viễn ngoài như x11? Bình thường khi tính thì sẽ bó qua các 
phần tử ở viền ngoài, vì không tìm được ma trận A ở trong X. 


Nên bạn để ý thấy ma trận Y có kích thước nhỏ hon ma trận X. Kích thước của ma trận Y là (m-k+1) 
* (n-k+1). 
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Convolved 


Image Feature 


Hình 7.12: Cac bước thực hiện phép tinh convolution cho ma trận X với kernel K ở trên 


7.2.2 Padding 
Như ở trên thì mỗi lần thực hiện phép tính convolution xong thì kích thước ma trận Y đều nhỏ hơn 
X. Tuy nhiên giờ ta muốn ma trận Y thu được có kích thước bằng ma trận X => Tìm cách giải quyết 
cho các phần tử ở viền => Thêm giá trị 0 ở viền ngoài ma trận X. 


Hình 7.13: Ma trận X khi thêm vién 0 bên ngoài 


Rõ ràng là giờ đã giải quyết được van dé tim A cho phan tử xj; , và ma trận Y thu được sé bằng 
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kích thước ma trận X ban đầu. 


Phép tính này gọi là convolution với padding=1. Padding=k nghĩa là thêm k vector 0 vào mỗi phía 
(trên, dưới, trái, phải) của ma trận. 


7.2.3 Stride 


Như ở trên ta thực hiện tuần tự các phần tử trong ma trận X, thu được ma trận Y cùng kích thước 
ma tran X, ta gọi là stride=1. 


Hình 7.14: stride=1, padding=1 


Tuy nhién nếu stride=k (k > 1) thì ta chi thực hiện phép tinh convolution trên các phần tU X11 xk,1+ jak 
Ví dụ k= 2. 


7.2.4 
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Hinh 7.15: padding=1, stride=2 


Hiéu don gian 1a bat đầu từ vị trí xị¡ sau đó nhảy k bước theo chiều dọc và ngang cho đến hết ma 
trận X. 


Kích thước của ma trận Y là 3*3 đã giảm đi đáng kể so với ma trận X. 


Công thức tổng quát cho phép tính convolution của ma trận X kích thước m*n với kernel kích thước 
m—k+2 n—k+2 
A a D«( > Pa 1). 


k*k, stride = s, padding = p ra ma trân Y kích thước ( 
Stride thường dùng để giảm kích thước của ma trận sau phép tinh convolution. 


Mọi người có thể xem thêm trực quan hơn ở đây. 


Y nghĩa của phép tinh convolution 


Mục đích của phép tính convolution trên ảnh là làm mờ, làm nét ảnh; xác định các đường:... Mỗi 
kernel khác nhau thì sẽ phép tính convolution sẽ có ý nghĩa khác nhau. Ví dụ: 
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Operation Kernel w Image result g(x,y) 


run 


pod, Ny 
0 0 0 
Identity 0 1 0 
0 0 0 
1 0 -1 
0 
—1 0 
0 1 0 
Edge detection 1 -4 1 
1 
—1 -1 -1 
—1 8 -1 
—1 -1 -1 
0 -1 0 
Sharpen —1 5 —1 
0 -—1 0 
DAL 
Box blur 1 
l =a pl 
(normalized) 9 
T 
Hinh 7.16: Mót só kernel phó bién [12] 
7.3 Bai tập 


1. Cai thư viện opencv trên python và thực hiện công việc sau: 
(a) Load và hiện thị ảnh màu/xám 
(b) Chuyển từ ảnh màu sang ảnh xám 
(c) Resize ảnh 
(d) Rotate ảnh 
(e) Threshold trên ảnh 


7.3 Bài tap 12] 


(f) Tìm các đường thang, đường tròn trên ảnh. 
2. Thử các kernel khác nhau trên anh (identity, edge detection, sharpen, blue). 
3. Tự implement lại phép tinh convolution với input là anh, kernel, padding, stride. 
4. Tu implement lại thuật toán sobel tim edge của ảnh. 
5. Tu implement lại HoughLine, HoughCircle, Canny bằng code python thuần. 


8. Convolutional neural network 


Bài nay sẽ giới thiệu về convolutional neural network, sẽ được dùng khi input của neural network là 
ảnh. Mọi người nên đọc trước bài neural network và xử lý ảnh trước khi bắt đầu bài này. 


Thiết lập bai toán 


Gần đây việc kiểm tra mã captcha để xác minh không phải robot của google bị chính robot vượt qua 


Hình 8.1: Robot vượt qua kiểm tra captcha 


Thé nên google quyết định cho ra thuật toán mới, dùng camera chụp ảnh người dùng và dùng deep 
learning để xác minh xem ảnh có chứa mặt người không thay cho hệ thống captcha cũ. 
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Bài toán: Input một anh màu kích thước 64*64, output anh có chứa mat người hay không. 


8.2 Convolutional neural network 


8.2.1 Convolutional layer 


Mô hình neural network từ những bai trước 


ZZ 


/ ANS 


Input layer Output layer 


Hidden layer 1 Hidden layer 2 


Hinh 8.2: MÓ hinh neural network. 


Mỗi hidden layer được goi là fully connected layer, tên goi theo đúng ý nghĩa, mỗi node trong hidden 
layer dugc két nói vói tát cá các node trong layer truóc. Cá mó hinh dugc goi là fully connected 
neural network (FCN). 


Van dé cüa fully connected neural network với xử ly ánh 


Nhu bài trước vé xử ly anh, thì ánh màu 64*64 được biểu diễn dưới dạng 1 tensor 64*64*3. Nên dé 
biểu thị hết nội dung của bức ảnh thì cần truyền vào input layer tất cả các pixel (64*64*3 = 12288). 
Nghia là input layer giờ có 12288 nodes. 
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X42288 


Input layer Hidden layer 1 


Hinh 8.3: Input layer va hidden layer 1 


Giả sử số lượng node trong hidden layer 1 là 1000. Số lượng weight W giữa input layer va hidden 
layer 1 là 12288*1000 = 12288000, số lượng bias là 1000 => tổng số parameter là: 12289000. Day 
mới chi là số parameter giữa input layer va hidden layer 1, trong model còn nhiều layer nữa, và nếu 
kích thước ảnh tăng, ví dụ 512*512 thì số lượng parameter tăng cực kì nhanh => Cần giải pháp tốt 
hơn !!! 


Nhận xét: 

* Trong ảnh các pixel ở canh nhau thường có liên kết với nhau hơn là những pixel ở xa. Ví dụ 
như phép tính convolution trên ảnh ở bài trước. Để tìm các đường trong ảnh, ta áp dụng sobel 
kernel trên mỗi vùng kích thước 3*3. Hay làm nét ảnh ta áp dụng sharpen kernel cũng trên 
vùng có kích thước 3*3. 

e Với phép tính convolution trong ảnh, chỉ 1 kernel được dùng trên toàn bộ bức ảnh. Hay nói 
cách khác là các pixel ảnh chia sẻ hệ số với nhau. 


=> Áp dụng phép tính convolution vào layer trong neural network ta có thể giải quyết được van dé 
lượng lớn parameter mà vẫn lấy ra được các đặc trưng của ảnh. 


Convolutional layer đâu tiên 


Bài trước phép tính convolution thực hiện trên ảnh xám với biểu diễn ảnh dạng ma trận 


126 Chuong 8. Convolutional neural network 


Convolved 


Image Feature 


Tuy nhién ánh máu có tói 3 channels red, green, blue nén khi biéu dién ánh duói dang tensor 3 
chiéu. Nén ta cúng sé dinh nghia kernel lá 1 tensor 3 chiéu kich thuóc k*k*3. 


height 


Hinh 8.4: Phép tính convolution trén ánh máu vói k=3. 


Ta định nghĩa kernel có cùng độ sâu (depth) với biểu diễn ảnh, rồi sau đó thực hiện di chuyển khối 
kernel tương tự như khi thực hiện trên ảnh xám. 
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Hình 8.5: Tensor X, W 3 chiều được viết dưới dạng 3 matrix. 


Khi biểu diễn ma trận ta cần 2 chỉ số hàng và cột: ¡ và j, thì khi biểu diễn ở dạng tensor 3 chiều cần 
thêm chỉ số độ sâu k. Nên chỉ số mỗi phần tử trong tensor là x; jk- 


yu = b + (x111 * W111 + X121 * W121 + X131 * W131 +X211 * W211 + X221 * W221 d- X231 * W231 + X311 * 
W311 - X321 * W321 d- X331 * W331 ) + (X112 * W112 +X122*W122 +X132 * W132 + X212 * W212 + X222 * W222 + 
X232 * W232 + X312 * W312 +X322 * W322 + X332 * W332) + (X113 * W113 + X123 * W123 + X133 * W133 + X213 * 
W213 F X223 * W223 + X233 * W233 F X313 * W313 + X323 * W323 + X333 * W333) = —25 


Nhân xét: 


* Output Y của phép tinh convolution trên anh màu là 1 matrix. 
e Có 1 hệ só bias được cộng vào sau bước tính tổng các phan tử của phép tính element-wise 


Các quy tắc đôi với padding và stride toàn hoàn tương tự như ở bài trước. 


Với mỗi kernel khác nhau ta sẽ học được những đặc trưng khác nhau của ảnh, nên trong mỗi 
convolutional layer ta sẽ dùng nhiều kernel để học được nhiều thuộc tính của ảnh. Vì mỗi kernel 
cho ra output là 1 matrix nên k kernel sẽ cho ra k output matrix. Ta kết hợp k output matrix nay lại 
thành 1 tensor 3 chiều có chiều sâu k. 
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TI Channel #1 aie E Channel #2 a TS AER #3 ale 


Kernel D #1 Kernel T #2 Kernel Channel #3 


Output 


H + ES + 


Hinh 8.6: Thuc hién phép tinh convolution trén anh mau. 


K kernel 3*3*3 


Input image Stride: 1 Output 
Tensor 64*64*3 Padding: 1 Tensor 64*64*k 


Convolutional layer 
Hinh 8.7: Convolutional layer dau tién 


Output của convolutional layer đầu tiên sẽ thành input của convolutional layer tiếp theo. 


Convolutional layer tổng quót 
Giả sử input của 1 convolutional layer tổng quát là tensor kích thước H * W * D. 


Kernel có kích thước F * F * D (kernel luôn có depth bang depth của input va F là só lẻ), 
stride: S, padding: P. 


Convolutional layer 4p dung K kernel. 


H—F-+2P W-F+2P 


=> Output của layer là tensor 3 chiều có kích thước: ( 5 +1)*( 5 +1)*K 


8.2.2 
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Input 
Tensor H * W* D F+9P ] 
: +1)*K 
S 
Convolutional layer 
Luu y: 


* Output của convolutional layer sẽ qua ham non-linear activation function trước khi trở thành 
input của convolutional layer tiếp theo. 

e Tổng số parameter của layer: Mỗi kernel có kích thước F*F*D và có 1 hệ số bias, nên tổng 
parameter của 1 kernel là F*F*D + 1. Mà convolutional layer áp dụng K kernel => Tổng số 
parameter trong layer nay là K * (F*F*D + 1). 


Pooling layer 

Pooling layer thường được dùng giữa các convolutional layer, để giảm kích thước di liệu nhưng 
vẫn giữ được các thuộc tính quan trọng. Việc giảm kích thước dữ liệu giúp giảm các phép tính toán 
trong model. 


Bên cạnh đó, với phép pooling kích thước ảnh giảm, do đó lớp convolution học được các vùng có 
kích thước lớn hơn. Ví dụ như ảnh kích thước 224*224 qua pooling về 112*112 thi vùng 3*3 ở ảnh 
112*112 tương ứng với vùng 6*6 ở ảnh ban đầu. Vì vậy qua các pooling thì kích thước ảnh nhỏ đi 
va convolutional layer sẽ học được các thuộc tính lớn hơn. 


Goi pooling size kích thước K*K. Input của pooling layer có kích thước H*W*D, ta tách ra 
làm D ma trận kích thước H*W. Với mỗi ma trận, trên vùng kích thước K*K trên ma trận ta tìm 
maximum hoặc average của dif liệu rồi viết vào ma trận kết quả. Quy tắc về stride và padding áp 
dụng như phép tính convolution trên ảnh. 


Hình 8.8: max pooling layer với size=(3,3), stride=1, padding=0 


Nhung hau hết khi dùng pooling layer thì sé dùng size=(2,2), stride=2, padding=0. Khi đó output 
width va height của dif liệu giảm di một nửa, depth thì được giữ nguyên . 
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224x224x64 


JÁ d 112x112x64 
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downsampling 
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224 


Hinh 8.9: Sau pooling layer (2*2) [4] 


Có 2 loại pooling layer phổ biến là: max pooling va average pooling. 


max pooling 
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Hinh 8.10: Vi du vé pooling layer 


Trong một số model người ta dùng convolutional layer với stride > 1 để giảm kích thước dữ 
liệu thay cho pooling layer. 


8.2.3 Fully connected layer 


Sau khi ảnh được truyền qua nhiều convolutional layer va pooling layer thi model đã học được 
tương đối các đặc điểm của ảnh (ví dụ mat, mũi, khung mát,...) thi tensor của output của layer cuối 


8.3 
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cùng, kích thước H*W*D, sẽ được chuyển về 1 vector kích thước (H*W*D, 1) 


Flattening 


————————————¬a 


Pooled Feature Map 


Sau đó ta dùng các fully connected layer dé kết hợp các đặc điểm của ảnh dé ra được output của 
model. 


Mang VGG 16 


VGG16 là mang convolutional neural network được dé xuất bởi K. Simonyan and A. Zisserman, 
University of Oxford. Model sau khi train bởi mang VGG16 dat độ chính xác 92.7% top-5 test trong 
dữ liệu ImageNet gồm 14 triệu hình ảnh thuộc 1000 lớp khác nhau. Giờ áp dụng kiến thức ở trên để 
phân tích mạng VGG 16. 
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Hinh 8.11: Kién tric VGG16 conv: convolutional layer, pool: pooling layer, fc: fully connected 


layer 


Phân tích: 


Convolutional layer: kích thuóc 3*3, padding=1, stride=1. Tai sao khong ghi stride, padding 
mà van biét? Vi mac dinh sé là stride=1 và padding dé cho output cüng width và height vói 
input. 

Pool/2 : max pooling layer vói size 2*2 

3*3 conv, 64: thi 64 là số kernel áp dụng trong layer đấy, hay depth của output của layer đấy. 
Càng các convolutional layer sau thi kích thuóc width, height càng giam nhung depth càng 
táng. 


8.4 


8.4.1 


132 Chuong 8. Convolutional neural network 


* Sau khá nhiều convolutional layer va pooling layer thi dữ liệu được flatten và cho vào fully 
connected layer. 
Bài sau tôi sẽ giới thiệu về keras va hướng dẫn dùng keras dé áp dung convolutional neural vào các 
ứng dụng như nhận diện số viết, dự đoán góc di chuyển trong ô tô tự lái. 


Visualizing Convolutional Neural Network 


Bên cạnh những thứ rat thú vi ma mô hình học sâu mang lại, thứ ma thực sự bên trong mô hình học 
sâu vẫn được coi là một chiếc hộp đen. Rõ ràng chúng ta luôn muốn giải mã chiếc hộp đen đó, rằng 
tại sao mô hình lại phân biệt được các chữ số, hay tại sao tìm ra vị trí của chú chó bull và xa hơn là 
tại sao mô hình lại có thể chuẩn đoán một tế bào là tế bào ung thư hay không. Càng ứng dụng các 
mô hình học sâu vào đời sống, việc giải mã chiếc hộp đen càng quan trọng. Nó dẫn đến 2 vấn đề 
mà ta cần biết: 

e Để hiểu mô hình học sâu làm gì, từ đó có những giải pháp cải tiến mô hinh. 

e Nhiều bài toán liên quan đến pháp lý cần lời giải thích hợp lý cho phương hướng giải quyết 

hơn là chấp nhận chiếc hộp đen 

Thật may mắn khi mạng CNN có thể trực quan hoá mô hình làm những gì. Có 3 thành phần quan 
trong trong mô hình CNN mà ta có thể visualize để hiểu mô hình CNN thực hiện việc gi: 

* Features Map 

* Convnet Filters 

* Class Output 


Visualizing Feature Maps 


Nhu đã viết ở phan trên, với một ảnh có số kênh là C, sau khi được dua qua convolutional layer với 
K convnet filters, ta được một feature map có K kênh, với mỗi kênh là một feature map được trích 
xuất từ một convet filter tương ứng. 


Convnet 
Filter 


All Feature Maps 


Hình 8.12: Tensor gồm các Feature Maps 


Nhu dé cập ở trên, đầu ra của convolutional layer là một tensor 3D với chiều rộng, chiều cao va 
chiều sâu là số kênh. Như vậy mỗi kênh của tensor là một kết quả độc lập từ phép tích chập tương 
ứng với mỗi filter và có 2 chiều tương ứng. Ta có thể tách từng kênh ra và xuất ra được một hình 
ảnh đại diện cho kênh đó. Đây chính là cách để visualize feature map. 


Trong kiến trúc của mạng VGG-16, ta có 5 khối (block) chính, mỗi block có các convolutional 
layer. Để tiện gọi tên các lớp, quy ước blockX-convY với X và Y là thứ tự tương ứng của block X và 
conv layer Y. Ví dụ với conv thứ 2 trong khối thứ 4 có tên là block4-conv2. 
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Anh gốc block1_conv1 


Hinh 8.13: Visualize block1-conv1 của mạng VGG16 


Phần có màu sáng hơn được gọi là vùng kích hoạt, nghĩa là vùng đó đã được filter lọc ra thứ mà nó 
cần tìm. Như hình trên, có vẻ filter này đang muốn trích xuất ra phần mắt và mũi của chú mèo. 


Mỗi tensor của conv layer gồm nhiều featuer maps khác nhau, hình bên dưới ta thực hiện vi- 
sualize 8 feature maps của 5 block khác nhau trong mạng VGG16. 


block1_conv1 


block5_conv1 


Hình 8.14: Visualize một số feature map từ các block 


Kha thú vị phải không. Để ý hơn ta có thể đưa ra vài nhận xét như sau: 
* Các lớp đầu tiên (block1-conv1) chủ yêu giữ lại hầu hết thông tin của ảnh. Trong mang CNN, 
các lớp đầu tiên thường là trích xuất viền cạnh của ảnh. 
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e Càng đi sâu, các lớp các khó có thể nhận ra là hinh gi. Nhu hình ở block2-conv1, ta vẫn có 
thể nhận ra đó là con mèo. Tuy nhiên đến block thứ 3 thì rất khó đoán được đó là hình gì 
và block thứ 4 thì không thể đoán nổi. Lý do là càng về sâu, các feature map biểu diễn cho 
những hình trừu tượng hơn. Những thông tin càng cụ thể hơn thì ta càng khó hình dung nó là 
gì. Chẳng hạn như các lớp về sau chỉ giữ lại thông tin của tai, mắt hay mũi của mèo mà thôi. 
Các thông tin càng về sau càng thưa thớt hơn. Điều này hợp lý vì những lớp đầu giữ lại các 
viền, cạnh của ảnh, thứ mà bức ánh nào cũng có. Tuy nhiên càng di sâu, mô hình tìm những 
thứ phức tạp hơn ví dụ như cái đuôi của con mèo - thứ mà không phải hình nào cũng có. Vậy 
nên đó là lý do tại sao ta thấy một số hình ở trên bị trống. 


8.4.2 Visualizing Convolutional Filters 


Cách thứ hai để biểu diễn thứ mà mang CNN làm là visualize conv filters. Tuy nhiên ta sẽ không 
trực tiếp visualize conv filters bởi vì như đã biết, các filters thường có kích thước rất nhỏ (3x3 hoặc 
5x5). Việc visualize nó không đem lại nhiều ý nghĩa như bạn thấy ở hình dưới đấy. 


at =| 
SIM Lok. 
del Lk. 


Hinh 8.15: Visualize 3x3 filters 


Thay vào đó, ta sẽ thử biểu diễn các filters thông qua một hình đầu vào mà khi qua ham tích chập 
với filters tương ứng đạt được giá trị kích hoạt trung bình cực đại. Có một số kỹ thuật nâng cao, 
được dé xuất bởi Erhan et al. 2009, nhưng tựu chung gồm các bước cơ bản như sau: 


e Một hinh ảnh với giá trị các pixel ngẫu nhiên và một pre-trained model CNN. 

* Ta sẽ tim các giá trị của pixel sao cho hàm loss là để cực dai trung bình giá trị kích hoạt của 
filter bằng cách thực hiện gradient ascent. 

e Lap lại đến khi đạt giá trị cực đại 


Lưu ý rằng, trong phần trước ta visualize đầu ra của ảnh khi đã đi qua filter, phần này là visualize 
xem filter đó dùng để làm gì bằng cách tìm một hình khiến cho filter đó kích hoạt tối đa các giá trị 
pixel. 


8.4.3 


8.4.4 
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block1-conv2 block2-conv2 block3-conv3 block4-conv3 block5-conv3 


Hình 8.16: Visualize 2 filters với mỗi layer tương ứng 


Càng về các layer cuối, hình ảnh càng trông rõ ràng hơn: 


* Các filter đầu tiên chủ yêu dùng để phát hiện những cạnh, viền, màu sắc và những hinh dang 
đơn giản. 

* Các filter vé sau mã hoá những hình ảnh phức tạp hơn. Như ta thay filter 41 ở layer block5- 
conv3 có vè dùng để nhận ra các con chim. Khi mà rất nhiều hình con chim với dáng khác 
nhau ở đó, nó khiến cho giá trị trung bình hàm kích hoạt gần đến cực đại. 


Có thể thấy mô hình CNN cũng giống con người. Khi còn là trẻ sơ sinh, ta tập trung vào những 
hình đơn giản trước rồi qua quá trình luyện tập những hình ảnh phức tạp dễ dàng được nhận ra bởi 
não bộ con người. 


Visualizing Class Outputs 


Giống như cách mà ta visualize filter, trong phan nay ta sẽ thực hiện visualize ở lớp cuối cùng là 
lớp softmax. Như cách làm trước, ta tạo ra hình ảnh khiến cho giá trị ở class mong muốn đạt cực 
đại. Chẳng hạn như yêu cầu mô hình CNN tạo ra hình mà khi đi qua softmax được giá trị ở lớp "cái 
den" đạt cực đại. Vi dụ như trong hình 8.17 


Khá là dễ hiểu khi những hình được lặp lại nhiều lần làm mô hình cảm thấy chắc chắn hơn. Keras 
có một thư viện riêng dùng cho việc visualize, các bạn có thể tham khảo tại đây 


Visualizing Attention Map 


Một cách rat trực quan dé visualize một mạnng CNN dùng phân loại ảnh là Attention Map. Giả sử 
ta có mạng CNN để phân loại ảnh, làm thế nào và tại sao mạng CNN lại đưa ảnh đó vào lớp chó? 
Liệu có phải mạng CNN có chú ý hơn vào những pixel liên quan đến chó? Để biết điều này ta xoá 
đi một phần của ảnh, sau đó đưa vào mạng CNN phân loại ảnh để xem xác suất rơi vào class nào và 
bao nhiêu. Khi lặp lại đến hết toàn bộ ảnh, ta có thể vẽ được heatmap với vùng càng nóng thì xác 
suất mô hình dự đoán đúng càng cao, hay phần bị che đi đó càng ít quan trọng. Kỹ thuật này được 
đề xuất bởi Matthew Zeiler 
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Hình 8.17: Những hình khiến cho mỗi lớp tương ứng dat giá trị cực đại 


(c) Layer 5, strongest (d) Classifier, probability (e) Classifier, most 
(a) Input Image (b) Layer 5, strongest feature map feature map projections of correct class probable class 


Hình 8.18: Ba vi dụ áp dụng kỹ thuật nêu trên, phan bi che di dùng một hình vuông màu xám (a) va 
xem feature map ở layer 5 chú ý đến gi (b & c), cột thứ 4 là attention map, ví dụ khi mặt của con 
chó Pom bị che thì tỉ lệ rơi vào class chó Pom gần như bằng không và mô hình CNN dự đoán là 
bóng tennis hoặc loài chó khác (e) 
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8.5 Bồi tap 
1. Convolutional layer để làm gi? Lại sao mỗi layer cần nhiều kernel? 
2. Hệ số của convolutional layer là gì? 
3. Tự tính lại số lượng parameter, output size của convolutional layer với stride và padding trong 
trường hợp tổng quát. 
4. Hình dưới là mô hình nhận diện chữ số MNIST, K: số kernel, S: stride, P: padding. Tính số 
lượng parameter ở layer va output tương ứng (Tim a, b, c, d, e, f, g, h, i). 


FC1: 128 
28*28 CONV 3*3 : CONV 3*3 E FC2: 10 
POOL 2*2 f 
K:32 K: 64 aan 
S: 1 SCH d 
P:1 P: 1 P:0 FLATTEN 
————— >| >| > 
c e ——T g i 
Input Output 
(a) 
h 
FC1: 128 
28 * 28 CONV 3*3 : CONV 3*3 £ FC2: 10 
POOL 2*2 f 
K: 32 K: 64 sb 
ED SÉ P:0 FLATTEN 
SETA > > >| 
a c e g i 
input Output 


(b) 
5. Tai sao cán flatten trong CNN? 
6. Tai sao trong model VGG16, ở layer càng sâu thi wight, height giảm nhung depth lại tăng. 
7. Tinh backpropagation qua convolutional layer va pooling layer. 


9. Giới thiệu keras và bài toán phan loai ánh 


Bài trước đã giới thiệu về convolutional neural network (CNN) cho bài toán với input là ảnh. Bài 
này sẽ giới thiệu về thư viện keras và ứng dụng keras để xây dựng mô hình CNN cho bài toán phân 
loại ảnh. 


9.1 Giới thiệu vé keras 


Bản chất của bài toán Deep learning: Bạn có dif liệu, bạn muốn máy tính học được các mô hình 
(model) từ dif liệu, sau đó dùng mô hình đấy để dự đoán được các dữ liệu mới. Các bước cơ bản 
làm một bài toán deep learning : 


. Xây dựng bài toán 

. Chuẩn bị dif liệu (dataset) 

. Xây dựng model 

. Định nghĩa loss function 

. Thực hiện backpropagation và áp dung gradient descent để tim các parameter gồm weight và 
bias để tối ưu loss function. 

6. Dự đoán dữ liệu mới bằng model với các hệ số tìm được ở trên 


Nun ra 


Bước xây dung model thi áp dung các kiến thức được trình bày trong bai neural network và 
convolutional neural network ta có thể xây dựng model hoàn chỉnh từ đầu bằng python. Tuy nhiên 
bước backpropagation trở nên phức tạp hơn rất rất nhiều. Khó để implement và tối ưu được tốc độ 
tính toán. Đấy là lý do các framework về deep learning ra đời với các đặc điểm: 


e Người dùng chỉ cần định nghĩa model va loss function, framework sé lo phan backpropagation. 

* Việc định nghĩa layer, activation function, loss function đơn giản hơn cho người dùng. Vi 
dụ để thêm layer trong neural network chỉ cần báo là layer có bao nhiêu node và dùng hàm 
activation gi. 


9.2 
9.2.1 


9.2.2 
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Deep Learning Framework Power Scores 2018 
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Hình 9.1: Các deep learning framework phổ biến [5] 


Có thé thấy tensorflow là framework phổ biến nhất tuy nhiên tensorflow khá khó sử dung cho người 
mới bắt đầu. Nên tôi sẽ giới thiệu về keras: dễ sử dụng, thân thiện với người dùng nhưng đủ tốt để 
làm các bài toán về deep learning. 


Keras là một framework mã nguồn mở cho deep learning được viết bằng Python. Nó có thể 
chạy trên nền của các deep learning framework khác như: tensorflow, theano, CNTK. Với các API 
bậc cao, dễ sử dụng, dễ mở rộng, keras giúp người dùng xây dựng các deep learning model một 
cách đơn giản. 


MNIST Dataset 
Xày dựng bai toán 


Bạn có ảnh xám kích thước 28*28 của chữ số từ 1 đến 9 và bạn muốn dự đoán số đấy là số máy. Ví 
dụ: 


Chuan bị dữ liệu 
MNIST là bộ cơ sở dữ liệu về chữ số viết tay, bao gồm 2 tập con: training set gồm 60.000 ảnh các 
chữ số viết tay và test set gồm 10.000 ảnh các chữ só. 


Training set, test set là gì? Mục đích cuối cùng của machine learning không phải là predict 
tốt với dữ liệu mình đang có mà là để predict tốt các dữ liệu mới khi đi vào thực tế, vậy nên mình 
mong muốn model học được tổng quan hóa đữ liệu (generalization) thay vì chỉ nhớ các dữ liệu 
trong dataset. Để đánh giá xem model có học không hay chỉ nhớ cũng như khi dùng ngoài thực tế 
thì performance sẽ thế nào, người ta chia dataset làm 3 tập traning set, validation set và test set. 


Mình sẽ cho model học trên tập training set và đánh giá model trên tập validation set. Nếu 


9,2 MNIST Dataset 14] 


Hình 9.2: Dữ liệu đầu tiên trong MNIST dataset. 


| Original labeled data | 


Split 


— 


Training set BER 


Test set | 


Hình 9.3: Chia các tập dữ liệu 


có nhiều hơn 1 mô hình (ví du VGG16, VGG19,...) thì mô hinh nào cho performance tốt hơn trên 
tập validation set sẽ được chọn. Và cuối cùng model tốt nhất sẽ được đánh giá trên tập test set làm 
hiệu suất của model khi dùng thực tế. Nhận thấy là tập test set không được dùng trong cả quá trình 
training chỉ đến cuối dùng để đánh giá. 


Giả sử bạn đang luyện thi đại học và bạn có 10 bộ đề để luyện thi. Nếu bạn học và chữa cả 
10 đề một cách chi tiết thì ban sẽ không thể ước lượng được điểm thi của bạn khoảng bao nhiêu, 
dẫn đến bạn không chọn được trường phù hợp. Thế là bạn nghĩ ra một giải pháp tốt hơn, trong 10 
dé đấy chỉ lay 8 đề học và chữa chi tiết thôi còn để 2 đề lại coi như là dé thi thật. Như vậy bạn có 
thể ước lượng điểm thi của mình bằng cách đánh giá điểm ở 2 đề đấy. 


Trong ví dụ trên thì: 


e 8 dé ôn luyện được goi là training set, có thể hiểu là dữ liệu dùng để day cho model hoc. 

e 2 dé để rành goi là validation set, là để đánh giá xem model hiện tai có tốt không, thường 
được dùng để chỉnh các tham số của model. 

* dé thi đại học thật là test set, là để đánh giá xem model hoạt động với dữ liệu thực té có tốt 
không. 


Như vay MNIST dataset có 60.000 dữ liệu ở training set ở trong MNIST, ta sẽ chia ra 50.000 dữ 
liệu cho training set và 10.000 dữ liệu cho validation set. Vẫn giữ nguyên 10.000 dữ liệu của test set. 


9.2.3 
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Xây dung model 


Vì input của model là ảnh nên nghĩ ngay đến convolutional neural network (CNN). 


Mô hình chung bài toán CNN: Input image -> Convolutional layer (Conv) + Pooling layer (Pool) -> 
Fully connected layer (FC) -> Output. 


14*14*32 = 6272 nodes 


FC1: 128 
28 * 28 * 32 28 * 28 * 32 
FC2: 10 
14 * 14 * 32 
CONV 3*3 POOL 2*2 FLATTEN 
——— > > > 

$:2 

cr EPO 
Output 


Hinh 9.4: Model cho bai toan 


Input cua model là anh xám kích thước 28*28. 


Softmax function 


Giống như bai logistic regression, thay vi chi muốn kết quả là ảnh là số mấy, ta muốn dự đoán phần 
trăm của ảnh là số nào. Ví dụ: 90% ảnh là số 5, 1% ảnh là số 1.... 


Nhắc lại bài neural network, ở mỗi layer sẽ thực hiện 2 bước: tính tổng linear các node ở layer trước 
và thực hiện activation function (ví dụ sigmoid function, softmax function). Do sau bước tính tổng 
linear cho ra các giá trị thực nên cần dùng softmax function dùng để chuyển đổi giá trị thực trong 
các node ở output layer sang giá trị phần trăm. 


Vì mỗi ảnh sẽ thuộc 1 class từ 0 đến 9, nên tất cả sẽ có 10 class. Nên output layer sẽ có 10 
node dé tương ứng với phần trăm ánh là số 0,1,..,9. Ví du: ag là xác suất ảnh là só 5. (Sự khác biệt 
chỉ số do các số bắt đầu từ 0 trong khi chỉ số của node trong layer bắt đầu từ 1) 
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Hinh 9.5: Softmax function 


: : : X e 
Tổng quát sau hàm activation: ay = —15——- 
Zi 
2 ;=1 € 
Nhán xét 
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Do đó ta có thé coi a; là xác suất ảnh là số (i-1). 
Với các bài toán classification (phân loai) thì néu có 2 lớp thì ham activation ở output layer 
la ham sigmoid và hàm loss function là binary_crossentropy, còn nhiêu hơn 2 lớp thì hàm 


activation ở ouput layer là hàm softmax với loss function là hàm categorical_crossentropy 


=> Output layer có 10 nodes và activation là softmax function. 


9.2.4 Loss function 


Để định nghĩa loss function, trước hết ta dùng one-hot encoding chuyển đổi label của anh từ giá tri 
số sang vector cùng kích thước với output của model. Ví dụ: 


144 Chương 9. Giới thiệu keras và bai toán phán logi ánh 


0 
0 
0 
0 
0 
1 
0 
0 
0 
0 
A y 
(data) (label) 


Dé ý là label của data là số i là vector v kích thước 10*1 với un = 1 và các giá trị khác bằng 0. So 
với quy ước về phần trăm ở trên thì one-hot encoding có ý nghĩa là ta chắc chắn 100% ảnh này là số 5. 


Giờ ta có giá trị thật (label) dạng one-hot encoding giá tri dự đoán ở output layer sau hàm softmax 
function cùng kích thước 10*1. Ta cần định nghĩa hàm loss function để đánh giá độ tốt của model. 


SCOCGCC—CCCCC 


y i 
Giá tri thát Gia tri dự đoán 


Mong muốn là ag gần 1 còn các giá tri a khác gần 0 vi như thé nghĩa là model du đoán đúng được 
ảnh đầu vào là ảnh số 5. Ta định nghĩa loss function: 


10 


L=-— Y yi«log($)) 
i=l 
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Thử đánh giá hàm L. Giá sử ảnh là số 5 thì L = —log(y). 


0.0 0.2 0.4 0.6 0.8 1.0 


Nhận xét: 

e Hàm L giảm dan từ 0 đến 1 

e Khi model dự đoán ys gan 1, tức giá tri dự đoán gần với giá trị thật yg thi L nhỏ, xáp xi 0 

e Khi model dự đoán y; gần 0, tức giá tri dự đoán ngược lai giá trị that yg thì L rất lớn 
=> Hàm L nhỏ khi giá trị model dự đoán gần với giá trị thật và rất lớn khi model dự đoán sai, hay 
nói cách khác L càng nhỏ thì model dự đoán càng gần với giá trị thật. => Bài toán tìm model trở 
thành tìm giá trị nhỏ nhất của L. 


Hàm loss function định nghĩa như trên trong keras gọi là "categorical_crossentropy" 


Python code 


@author: DELL 

# 1. Thêm các thu vién can thiết 

import numpy as np 

import matplotlib.pyplot as plt 

from keras.models import Sequential 

from keras.layers import Dense, Dropout, Activation, Flatten 
from keras.layers import Conv2D, MaxPooling2D 

from keras.utils import np_utils 

from keras.datasets import mnist 


X 2. Load dt Liệu MNIST 

(X_train, y_train), (X_test, y_test) = mnist.load_data() 
X_val, y_val = X_train[50000:60000,:], y_train[50000:60000] 
X_train, y_train = X_train[:50000,:], y_train[:50000] 
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print (X_train. shape) 


# 3. Reshape lại dú Liệu cho đứng kích thước mà keras yéu cau 
X_train = X_train.reshape(X_train.shape[0], 28, 28, 1) 

X_val = X_val.reshape(X_val.shape[0], 28, 28, 1) 

X_test = X_test.reshape(X_test.shape[0], 28, 28, 1) 


# 4. One hot encoding label (Y) 

Y_train = np_utils.to_categorical(y_train, 10) 
Y_val = np_utils.to_categorical(y_val, 10) 

Y_test = np_utils.to_categorical(y_test, 10) 
print('Dữ liệu y ban đầu ', y_train[0]) 

print('Dú liệu y sau one-hot encoding ',Y_train[0]) 


# 5. Dinh ngh%a model 
model = Sequential () 


# Thêm Convolutional layer vói 32 kernel, kích thuóc kernel 3*3 
# ding ham sigmoid lam activation vá chi ró input_shape cho layer dën tién 
model .add(Conv2D(32, (3, 3), activation='sigmoid', input_shape=(28,28,1))) 


# Thêm Convolutional layer 
model .add(Conv2D(32, (3, 3), activation='sigmoid')) 


# Thém Max pooling layer 
model .add (MaxPooling2D (pool_size=(2,2))) 


# Flatten layer chuyén từ tensor sang vector 
model .add(Flatten()) 


# Thêm Fully Connected layer vói 128 nodes và dùng ham sigmoid 
model.add(Dense(128, activation='sigmoid')) 


# Output layer vói 10 node và dùng softmax function để chuyén sang wdc suất. 
model.add(Dense(10, activation='softmax')) 


# 6. Compile model, chỉ rõ hàm loss function nào được sử dung, phương thúc 
# đùng để tối uu ham loss function. 
model .compile(loss='categorical_crossentropy', 

optimizer='adam', 

metrics=['accuracy']) 


X 7. Thục hiên train model vdi data 
H = model.fit(X_train, Y_train, validation_data=(X_val, Y_val), 
batch_size=32, epochs=10, verbose=1) 


# 8. Vẽ đồ thi loss, accuracy của training set và validation set 
fig = plt.figure() 
numDfEpoch = 10 
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plt.plot(np.arange(0, numDfEpoch), H.history['loss'], label='training loss') 
plt.plot(np.arange(0, numDfEpoch), H.history['val_loss'], label='validation loss') 
plt.plot(np.arange(0, numOfEpoch), H.history['acc'], label='accuracy') 
plt.plot(np.arange(0, numDfEpoch), H.history['val acc'], label='validation accuracy') 
plt.title('Accuracy and Loss') 

plt.xlabel('Epoch') 

plt.ylabel('Loss|Accuracy') 

plt.legend() 


# 9. Đánh gia model vói dt liệu test set 
Score - model.evaluate(X test, Y test, verbose-0) 
print (score) 


X 10. Du đoán ánh 
plt.imshow(X test[O].reshape(28,28), cmap-'gray') 


y_predict = model.predict(X test[0].reshape(1,28,28,1)) 
print('Giá tri dự đoán: ', np.argmax(y. predict)) 


9.4 Ung dung của việc phan loai ánh 
* Chuán doán ánh X-ray cüa bénh nhán có bi ung thu hay khóng 
e Phân loai, nhận diện được các chữ, số viết tay => tự động doc được biển số xe, văn bản. 
e Phân loại được các biển báo giao thông => hỗ trợ cho ô tô tự lái 


9.5 Bồi tập 
1. Tại sao cần dùng softmax activation ở layer cuối cùng? 
2. (a) Thiết kế và training model CNN phân loại chó, mèo, nguồn dữ liệu https://www.kaggle.com/c/dogs- 
vs-cats/data 

(b) Thay đổi learning rate, epoch, batch size xem accuracy thay đổi thế nào? Thử giải thích 
tại sao? 

(c) Thay đổi model bang cách thêm lần lượt các layer pooling, dropout, batch normalization, 
activation function va thay đổi kernel size bang (5x5), (7x7) xem số lượng parameter, 
accuracy thay đổi thế nào? Thử giải thích tại sao? 

3. Xây dựng model CNN cho bài toán phân loại ảnh với dữ liệu CIFAR10 dataset bao gồm 
50,000 training set và 10.000 test set ảnh màu kích thước 32x32 cho 10 thể loại khác nhau 
(máy bay, ô tô, thuyền, chim, chó, mèo, ngua,...). 


# Load dü liêu cifari0 
from keras.datasets import cifar10 
(x train, y train), (x test, y test) = cifar10.load_data() 


10. Ung dung CNN cho 6 tô tu Idi 


Bài trước đã giới thiệu về thu viện keras va dùng keras để xây dựng mô hình convolutional neural 
network (CNN) cho bài toán phân loại ảnh. Bài này sẽ dùng mô hình CNN để dự đoán các giá trị 
thực và áp dụng cho bài toán ô tô tự lái. 


10.1 Giới thiệu mô phóng 6 tô tự Idi 


Ứng dụng mô phỏng ô tô tự lái là phần mềm mã nguồn mở được phát triển bởi Udacity, được viết 
bằng Unity (công cụ dùng để phát triển game). 
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Ké Sat 


Moi người tai phần mềm ở đây. Kéo xuống dưới va chon hệ điều hành tương ứng. 


README.md 


Welcome to Udacity's Self-Driving Car Simulator 


This simulator was built for , to teach students how to train cars how to navigate road 
courses using deep learning. See more 


All the assets in this repository require Unity. Please follow the instructions below for the full setup. 
Available Game Builds (Precompiled builds of the simulator) 


Term 1 
Instructions: Download the zip file, extract it and run the executable file. 


Version 2, 2/07/17 


KH 


Sau khi tải về, giải nén thì bạn có thể chạy được luôn như trên window thi bạn sé thấy file .exe 
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Self Driving Car Nanodegree Program Configuration X 


Graphics Input 


Screen 1280 x 960 v Windowed 
Graphics quality v 
Select monitor Display 1 v 


Hinh 10.1: Chon kích thuóc, cáu hinh (máy khóe thi dé nét hon khóng thi cif dé Fastest) 


Sau dó ban chon Play! 


UDACITY 


SELF-DRIVING CAR ENGINEER 


TRAINING MODE 


Ban sé thấy có 2 ché độ: training mode (sẽ cho dữ liệu vé ô tô tự lái dé train mô hinh) và autonomous 
mode (sau khi hoc được mô hình rồi thì đây là phan 6 tô tu lái). 
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Ở 6 tô có gắn 3 cameras (trái, giữa, phải) 
Ô tô có thể di chuyển sang bên trái (—), sang bên phải ( —›), tăng tóc (†), giám tốc (|) 


Trong phần training mode, ở mỗi vị trí ô tô di chuyển thì sẽ cho ta các dữ liệu: ảnh ở 3 cam- 
era, góc lái của vô lăng, tốc độ xe, độ giảm tốc (throttle) và phanh (brake) 


10.2 Bài toán ô tô tự Idi 
10.2.1 Xây dựng bài toán 


Bạn muốn dự đoán góc lái của vô lăng bằng ảnh ở camera trên ô tô. Vì input là ảnh nên nghĩ ngay 
đến việc dùng CNN. 


Dữ liệu training set sẽ được lấy từ training mode của phần mềm mô phỏng. 


10.2[2 Chuổn bi dữ liệu 


Sau khi bạn chọn training mode thì hãy làm quen với việc di chuyển của ô tô bằng các phím mũi 
tên. Đến khi bạn lái mượt rồi thì chọn nút record. Chọn folder bạn muốn lưu dữ liệu và chọn select. 


Bạn lái xe khoảng 10 phút sẽ ra khoảng 18000 ảnh (6000 ảnh từ mỗi camera). 


Bạn cũng thấy file driving log.csv để mô tả dit liệu 


đường dẫn ảnh camera giữa | ảnh camera trái | ảnh camera phải | góc lái | độ giảm tốc | phanh | tốc độ | 


10.2.3 Tién xử lý dữ liệu (Preprocessing) 


Ảnh màu từ camera ở ô tô có kích thước 320*160 


Để tăng lượng ảnh cho việc training, với các ảnh ở camera giữa ta dùng góc lái như trong file csv. 
Tuy nhiên với ảnh camera trái ta tắng góc lái lên 0.2 và ảnh camera phải ta giảm góc lái đi 0.2. 


Thêm vào đó ta có thể lật ngược ảnh lại và đổi dấu góc lái của vô lăng. 
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Tiếp, ta có thể dịch chuyển ảnh hoặc thêm độ sáng tối cho ảnh và giữ nguyên góc lái 


Hình 10.2: Thêm sáng 


Hình 10.3: Thêm tối 


Hình 10.4: Dịch chuyển 


Quá trình thêm ảnh như trên gọi là data augmentation để tránh overfitting, hiểu đơn giản là khi 
luyện thi thay vì chỉ luyện kĩ 10 đề thì lên mạng tải thêm 100 đề nữa để làm và chữa chỉ tiết như vậy 
khi thi đại học thật điểm có thể sẽ tốt hơn vì làm nhiều đề và gặp nhiều dạng bài hơn. 
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Phần mũi xe 6 tô và bau trời thi không liên quan đến việc dự đoán góc lái vô lăng nên ta sẽ 
cắt bỏ đi. 


Do dùng CNN, các ảnh input cần cùng kích thước nên sẽ reshape ảnh thành kích thước 66*200. 


10.2.4 Xây dựng model 


Output: vehicle control 


Fully-connected layer 
Fully-connected layer 
Fully-connected layer 


Convolutional 
feature map 
64@1x18 
SxS kemel Convolutional 
feature map 
64@3x20 


x3 kernel 
3x3 kome Convolutional 


feature map 
48@5x22 


5x5 kernel 

Convolutional 
feature map 
36@14x47 


5x5 kernel Convolutional 


feature map 
24@31x98 


Normalized 
input planes 
3@66x200 


Input planes 
3@66x200 


Hình 10.5: Model của bai toán [6] 
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Input layer: Anh màu kích thước 66*200 
Output layer: 1 node dự đoán góc lái của vô lăng 


10.2.5 Loss function 


Vì giá trị dự đoán là giá trị thực nên ta sé dùng mean square error giống như trong bài 1 khi dự 
đoán giá nhà. 


10.3 Python code 
# -*- coding: utf-8 -*- 


import pandas as pd 

import numpy as np 

import os 

import matplotlib.pyplot as plt 


from sklearn.model_selection import train_test_split 


from keras.models import Sequential 

from keras.optimizers import Adam 

from keras.callbacks import ModelCheckpoint 

from keras.layers import Lambda, Conv2D, Dropout, Dense, Flatten 
from keras.regularizers import 12 


from utils import INPUT_SHAPE, batch_generator 


# Thu muc dé dú liéu 

data_dir = 'dataset' 

# Doc file driving log.csv vói các cột tương ứng 

data_df = pd.read_csv(os.path. join(os.getcwd(), data dir, 'driving_log.csv'), \ 
names=['center', 'left', 'right', 'steering', 'throttle', 'reverse', 'speed']) 

# Lay đường dẫn đến ánh ở camera giữa, trái, phái 

X = data df[['center', 'left', ‘right']].values 

# Lay góc lái của 6 tó 

y = data df['steering'].values 


# Vē histogram dé liêu 
plt.hist(y) 


# Loại bó và chí lay 1000 dú Liệu có góc lái ở 0 

pos zero = np.array(np.where(y--0)).reshape(-1, 1) 

pos none zero - np.array(np.where(y!-0)).reshape(-1, 1) 
np.random.shuffle(pos zero) 

pos zero - pos zero[:1000] 


pos combined = np.vstack((pos zero, pos. none zero)) 
pos combined = list(pos, combined) 
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y = ylpos_combined] . reshape (len(pos_combined) ) 
X = X[pos_combined, :].reshape((len(pos_combined), 3)) 


# After process 
plt.hist(y) 


# Chia ra traing set va validation set 
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, \ 
random_state=0) 


# Xây dung model 

model = Sequential () 

model.add(Lambda(lambda x: x/127.5-1.0, input_shape=INPUT_SHAPE) ) 
model.add(Conv2D(24, 5, 5, activation='elu', subsample=(2, 2))) 
model .add(Conv2D(36, 5, 5, activation='elu', subsample=(2, 2))) 
model.add(Conv2D(48, 5, activation='elu', subsample=(2, 2))) 
model.add(Conv2D(64, 3, 3, activation='elu')) 
model.add(Conv2D(64, 3, 3, activation='elu')) 

model .add (Dropout (0.5)) 

model .add(Flatten()) 

model .add(Dense(100, activation='elu')) 

model .add (Dropout(0.5)) 

model .add(Dense(50, activation='elu')) 

model .add(Dense(10, activation='elu')) 

model .add(Dense(1)) 

model . summary () 


w C0 ƠI ƠI ƠI 


nb_epoch = 10 
samples_per_epoch = 1000 
batch_size = 32 
save_best_only = True 
learning rate = 1e-4 


# Checkpoint nay để nói cho model Lưu lai model nếu validation loss thap nhat 
checkpoint = ModelCheckpoint ('models/model-{epoch:03d}.h5', 
monitor='val_loss', 
verbose=0, 
save_best_only=save_best_only, 
mode-'auto') 


# Ding mean squrared error lam loss function 
model.compile(loss-'mean squared error', optimizer-Adam(lr-learning rate)) 


# Train model 
H = model.fit generator(batch generator(data dir, X train, y train, batch size, True), 
Steps. per. epoch = samples. per. epoch, 
epochs - nb epoch, 
max q.size-1, 
validation data-batch generator(data dir, X valid, y valid, \ 


10.4 


10.5 
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batch_size, False), 
nb_val_samples=len(X_valid), 
callbacks=[checkpoint] , 
verbose=1) 


Ap dụng model cho 6 tô tu Idi 


Khi ta bật chế độ autonomous mode trong phần mềm mô phỏng, ta sé dùng socket để lấy được dữ 
liệu từ camera giữa của ô tô sau đó dùng model để dự đoán góc lại. Cuối cùng ta sẽ chuyển lại dữ 
liệu về góc lái, tốc độ lại cho phần mềm để ô tô di chuyển. 


Code cụ thể trong file drive.py trong github nhưng đây là những phần quan trọng nhất 


# Load model mà ta da train được tu bước trước 
model = load, model('model.h5') 


# Góc Lái hiện tại của 6 tô 
Steering angle = float(data["steering angle"]) 
# Tóc độ hiện tai của 6 tô 
speed = float(data["speed"]) 
# Anh tu camera giữa 
image = Image.open(BytesIO0(base64.b64decode(data["image"]))) 
try: 
# Tiền zú ly ánh, cát, reshape 
image = np.asarray (image) 
image = utils.preprocess (image) 
image = np.array([image]) 
print (AR dk bk SOG ooo kkk kkk ! ) 
steering angle = float(model.predict(image, batch_size=1)) 


# Tốc độ ta để trong khoảng từ 10 đến 25 
global speed_limit 
if speed > speed_limit: 
speed Limit = MIN_SPEED # gidm téc dë 
else: 
speed_limit = MAX_SPEED 
throttle = 1.0 - steering angle**2 - (speed/speed_limit) **2 


print('{} {} {}'.format(steering_angle, throttle, speed) ) 
# Gửi Lai dit Liệu vé góc lái, tốc độ cho phần mềm dé ô tô tu lái 
send_control(steering_angle, throttle) 


Đầu tiên các bạn mở phần mềm chon autonomous mode, 6 tô sé đứng yên. Sau đó mở command 
line chạy python drive.py model.h5 và ô tô sẽ bắt đầu tự lái. model.h5 là tên model mà bạn đã lưu ở 
bước trên. 


Bai tap 
1. Model được xây dựng chỉ dựa trên góc lái hãy mở rộng model để có thé dự đoán cả các thông 
số khác như góc lái, tốc độ... 
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Transfer learning va data augmentation 
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Transfer learning 

Data augmentation 

Bai táp 


Các ky thuát cơ bán trong deep learning 
177 

Vectorization 

Mini-batch gradient descent 

Bias và variance 

Dropout 

Activation function 

Batch Normalize 

Bài tàp 


11. Transfer learning va data augmentation 


Bài này sé giới thiệu các kĩ thuật để giải quyết khi ban không có đủ dữ liệu cho việc training model. 


11.1 Transfer learning 


Bạn có bài toán cần nhận diện 1000 người nổi tiếng ở Việt Nam, tuy nhiên dữ liệu dé train chỉ 
khoảng 10 ảnh / 1 người. Số lượng dữ liệu là quá ít dé train một mô hình CNN hoàn chỉnh. 


Bạn tìm trên mạng thấy VGGFace2 dataset có 3.31 triệu ảnh của 9131 người, với trung bình 
362.6 ảnh cho mỗi người. Họ làm bài toán tương tự đó là nhận diện ảnh từng người và họ đã train 
được CNN model với accuracy hơn 99%. 


Bạn nhớ ra là trong convolutional neural network, convolutional layer có tác dụng lấy ra các 
đặc trưng của ảnh, và sau hàng loạt các convolutional layer + pooling layer (ConvNet) thì model sẽ 
học được các đặc điểm của ảnh, trước khi được cho vào fully connected layer => ConvNet trong 
VGGFace2 model cũng lấy ra được các đặc điểm của mặt người (tai, mũi, tóc,...) => Ta cũng có thé 
áp dụng phần ConvNet của VGGFace2 model vào bài toán nhận diện mặt người nổi tiếng ở Việt 
Nam để lay ra các đặc điểm của mặt. 


Quá trình sử dụng pre-trained model như trên gọi là transfer learning. 
Các pre-trained model được sử dụng thường là các bài toán được train với dữ liệu lớn ví dụ ImageNet, 
dữ liệu chứa 1.2 triệu ảnh với 1000 thể loại khác nhau. 

Có 2 loại transfer learning: 

* Feature extractor: Sau khi lấy ra các đặc điểm của ảnh bằng việc sử dụng ConvNet của 
pre-trained model, thì ta sẽ dùng linear classifier (linear SVM, softmax classifier,..) để phân 
loại ảnh. Hiểu đơn giản thì các đặc điểm ảnh (tai, mũi, tóc,...) giờ như input của bài toán 
linear regression hay logistic regression. 

e Fine tuning: Sau khi lay ra các đặc điểm của anh bằng việc sử dung ConvNet của pre-trained 
model, thì ta sẽ coi đây là input của 1 CNN mới bằng cách thêm các ConvNet va Fully 
Connected layer. Lý do là ConvNet của VGGFace 2 model có thể lấy ra được các thuộc tinh 
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higher slope higher asymptote 


- With transfer 
—— without transfer 


performance 


training 


Hình 11.1: Hiệu quả khi sử dung transfer learning [2] 


của mặt người nói chung nhưng người Việt Nam có những đặc tính khác nên cần thêm 1 số 
Convnet mới để học thêm các thuộc tính của người Việt Nam. 

Bài toán: Ta muốn nhận diện ảnh của 17 loài hoa, mỗi loài hoa có khoảng 80 ảnh. 

Sử dụng pre-trained model là VGG 16 của ImageNet. Mô hình VGG 16 mọi người có thể xem lại 


bài CNN. Mô hinh VGG16 của ImageNet dataset, phân loại ảnh thuộc 1000 thé loại khác nhau. 
Nên có thể hiểu là nó đủ tổng quát để tách ra các đặc điểm của bức ảnh, cụ thể ở đây là hoa. 


11.1.1 Feature extractor 


Ta chỉ giữ lại phan ConvNet trong CNN và bỏ di FCs. Sau đó dùng output của ConvNet còn lại để 


làm input cho Logistic Regression với nhiều output, như trong hình 11.2. 


Mô hình logistic regression với nhiều output có 2 dạng: 


Dạng thứ nhất là một neural network, không có hidden layer, hàm activation ở output layer là 
softmax function, loss function là hàm categorical-cross entropy, giống như bài phân loại ảnh. 
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Output Labels Output Features 


Hình 11.2: Bên trái là mô hình VGG16, bên phåi là mô hình VGG16 chi bao gòm ConvNet (bó 
Fully Connected layer) [21] 


Số node = só class cần phân loại 
Hàm activation: Softmax 


Extracted Feature 


Input layer 


Output layer 
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Dang thứ hai giống như bai logistic regression, tức là model chỉ phân loại 2 class. Mỗi lần ta sẽ 
phân loại 1 class với tất cả các class còn lại. 


One-vs-all (one-vs-rest): 


A x 
„| DA Xxx 
x 
nda 
X 
Class1:A + 


Class2:O < 
Class 3: X < 


ho (x) = Ply =ilx;8) (i =1,2,3) 


Hinh 11.3: 1 vs all classification [13] 
# -*- coding: utf-8 =*= 


X Thêm thư vién 

from sklearn.linear_model import LogisticRegression 
from sklearn.model_selection import GridSearchCV 
from sklearn.metrics import classification_report 
from imutils import paths 

from keras.applications import VGG16 

from keras.applications import imagenet_utils 

from keras.preprocessing.image import img_to_array 
from keras.preprocessing.image import load_img 

from sklearn.preprocessing import LabelEncoder 

from sklearn.model_selection import train_test_split 
import numpy as np 

import random 

import os 


# Lay các đường dan đến ảnh. 
image_path = list(paths.list_images('dataset/')) 


# Đổi vi trí ngẫu nhiên các đường dán ảnh 
random.shuffle(image. path) 


# Đường dẫn ánh sé là dataset/t&n loài hoa/t&n ánh ví du dataset/Bluebell/image_0241. jpg 
labels - [p.split(os.path.sep)[-2] for p in image path] 


# Chuyén tén các loài hoa thành sé 
le - LabelEncoder() 
labels - le.fit transform(labels) 


11.1.2 
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# Load model VGG 16 của TmageWet dataset, include_top=False để bỏ phan Fully connected la 
model = VGG16(weights='imagenet', include_top=False) 


# Load ánh va resize vé đứng kích thước mà VGG 16 cần Là (224,224) 
list_image = [] 
for (j, imagePath) in enumerate(image. path): 

image - load img(imagePath, target size-(224, 224)) 

image - img to array(image) 


image = np.expand dims(image, 0) 
image = imagenet_utils.preprocess_input (image) 


list_image. append (image) 
list_image = np.vstack(list_image) 


# Dùng pre-trained model dé láy ra các feature của dnh 
features = model.predict(1ist_image) 


# Giống bước flatten trong CNN, chuyén từ tensor 3 chiều sau ConuWet sang vector 1 chiều 
features = features.reshape((features.shape[0], 512*7*7)) 


# Chia traing set, test set ti Lệ 80-20 
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, rand 


# Grid search để tim các parameter tốt nhất cho model. C = 1/lamda, hệ số trong regularis 
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegressi 
params = {'C' : [0.1, 1.0, 10.0, 100.0]} 

#model = GridSearchCV(LogisticRegression(solver-'lbfgs', multi_class='multinomial'), para 
model = GridSearchCV(LogisticRegression(), params) 

model.fit(X train, y train) 

print('Best parameter for the model {}'.format(model.best_params_ )) 


# Dánh gia model 
preds - model.predict(X test) 
print(classification report(y test, preds)) 


Fine tuning 


Ta chi giữ lai phần ConvNet trong CNN và bó di FCs. Sau đó thêm các Fully Connected layer mới 
vào output cua ConvNet nhu trong hinh 11.4. 


Khi train model ta chia làm 2 giai doan 


Giai đoạn 1: Vi các Fully Connected layer ta mới thêm vào có các hệ số được khởi tao ngẫu 
nhiên tuy nhiên các layer trong ConvNet của pre-trained model đã được train với ImageNet dataset 
nên ta sẽ không train (đóng băng/freeze) trên các layer trong ConvNet của model VGG16. Sau 
khoảng 20-30 epoch thì các hệ số ở các layer mới đã được học từ dữ liệu thì ta chuyển sang giai 
đoạn 2. 
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Hình 11.5: Freeze các layer của pre-trained model, chi train ở các layer mới [21] 


Giai đoạn 2: Ta sé unfreeze các layer trên ConvNet cua pre-trained model va train trên các layer 
của ConvNet của pre-trained model va các layer mới. Bạn có thé unfreeze tat cả các layer trong 
ConvNet của VGG16 hoặc chi unfreeze một vai layer cuối tùy vào thời gian va GPU bạn có. 
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Hình 11.6: Freeze các layer của pre-trained model, chi train ở các layer mới [21] 
# -*- coding: utf-8 -*- 


# Thêm thu vién 

from sklearn.linear_model import LogisticRegression 
from sklearn.model_selection import GridSearchCV 
from sklearn.metrics import classification_report 
from imutils import paths 

from keras.applications import VGG16 
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from keras.applications import imagenet_utils 

from keras.preprocessing.image import img_to_array 
from keras.preprocessing.image import load_img 

from sklearn.preprocessing import LabelEncoder 

from sklearn.preprocessing import LabelBinarizer 
from sklearn.model_selection import train_test_split 
from keras.preprocessing.image import ImageDataGenerator 
from keras.optimizers import SGD 

from keras.optimizers import RMSprop 

from keras.applications import VGG16 

from keras.layers import Input 

from keras.models import Model 

from keras.layers.core import Dense 

from keras.layers.core import Dropout 

from keras.layers.core import Flatten 

import numpy as np 

import random 

import os 


# Lay các đường dẫn đến ảnh. 
image_path = list(paths.list_images('dataset/')) 


# Đổi vi trí ngẫu nhiên các đường dẫn ánh 
random.shuffle(image path) 


# Đường dẫn ánh sé là dataset/t&n loài hoa/tén ánh ví du dataset/Bluebell/image_0241. jpg 
labels - [p.split(os.path.sep)[-2] for p in image path] 


# Chuyén tén các loài hoa thành sé 
le - LabelEncoder() 
labels - le.fit transform(labels) 


# One-hot encoding 
lb = LabelBinarizer () 
labels = 1b.fit_transform(labels) 


# Load dnh va resize vé đúng kích thước mà VGG 16 can Là (224,224) 
list_image = [] 
for (j, imagePath) in enumerate(image_path) : 

image = load_img(imagePath, target_size=(224, 224)) 

image = img_to_array (image) 


image = np.expand_dims(image, 0) 
image = imagenet_utils.preprocess_input (image) 


list_image. append (image) 


list_image = np.vstack(list_image) 
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# Load model VGG 16 của ImageNet dataset, include top-False để bỏ phan Fully connected la 
baseModel = VGG16(weights='imagenet', include_top=False, \ 
input_tensor=Input (shape=(224, 224, 3))) 


# Xâu thêm các layer 
# Lay output của ConuNet trong VGG16 
fcHead = baseModel. output 


# Flatten trước khi dùng FCs 
fcHead = Flatten(name='flatten' ) (fcHead) 


# Thém FC 
fcHead = Dense(256, activation='relu' ) (fcHead) 
fcHead = Dropout (0.5) (fcHead) 


# Output layer vdi softmax activation 
fcHead = Dense(17, activation='softmax' ) (fcHead) 


# Xây dung model bằng viéc nối ConuNet của VGG16 và fcHead 
model = model = Model (inputs=baseModel.input, outputs=fcHead) 


# Chia traing set, test set tỉ Lệ 80-20 
X_train, X_test, y_train, y_test = train_test_split(list_image, labels, \ 
test_size=0.2, random_state=42) 


# augmentation cho training data 

aug train = ImageDataGenerator(rescale-1./255, rotation_range=30, A 
width_shift_range=0.1, height_shift_range=0.1, \ 
shear_range=0.2, zoom_range=0.2, horizontal_flip=True, \ 
fill_mode='nearest') 

# augementation cho test 

aug_test= ImageDataGenerator (rescale=1./255) 


# freeze VGG model 
for layer in baseModel.layers: 
layer.trainable = False 


opt = RMSprop(0.001) 

model .compile(opt, 'categorical crossentropy', ['accuracy']) 

numOfEpoch = 25 

H = model.fit generator(aug train.flow(X train, y train, batch, size-32), 
Steps, per epoch-len(X train)//32, 
validation data-(aug test.flow(X test, y test, batch size-32)), 
validation steps-len(X test)//32, 
epochs=num0fEpoch) 


# unfreeze some last CNN layer: 
for layer in baseModel.layers[15:]: 
layer.trainable = True 
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numDfEpoch = 35 

opt = SGD(0.001) 

model.compile(opt, 'categorical crossentropy', ['accuracy']) 

H = model.fit generator(aug train.flow(X train, y train, batch size-32), 
Steps, per epoch-len(X train)//32, 
validation data-(aug test.flow(X test, y test, batch size-32)), 
validation steps-len(X test)//32, 
epochs-numÜfEpoch) 


Accuracy của fine-tuning tốt hơn so với feature extractor tuy nhiên thời gian train của fine-tuning 
cũng lâu hơn rat nhiều. Giải thích đơn gián thi feature extractor chỉ lay ra đặc điểm chung chung từ 
pre-trained model của ImageNet dataset cho các loài hoa, nên không được chính xác lắm. Tuy nhiên 
ở phan fine-tuning ta thêm các layer mới, cũng như train lại 1 số layer ở trong ConvNet của VGG16 
nên model giờ học được các thuộc tính, đặc điểm của các loài hoa nên độ chính xác tốt hơn. 


11.1.3 Khi nào nên dùng transfer learning 
Có 2 yếu tố quan trọng nhất để dùng transfer learning đó là kích thước của di liệu bạn có và sự 
tương đồng của dữ liệu giữa mô hình bạn cần train và pre-trained model. 

e Dữ liệu ban có nhỏ và tương tự với dữ liệu ở pre-trained model. Vi dữ liệu nhỏ nên nếu dùng 
fine-tuning thì model sé bi overfitting. Hơn nữa là dữ liệu tương tự nhau nên là ConvNet của 
pre-trained model cũng lấy ra các đặc điểm ở dữ liệu của chúng ta. Do đó nên dùng feature 
extractor. 

e Dif liệu ban có lớn và tương tự với dữ liệu ở pre-trained model. Giờ có nhiều dữ liệu ta không 
sợ overfitting do đó nên dùng fine-tuning. 

* Dữ liệu bạn có nhỏ nhưng khác với dit liệu ở pre-trained model. Vì dữ liệu nhỏ nên ta lên 
dùng feature extractor để tránh overfitting. Tuy nhiên do dữ liệu ta có và dữ liệu ở pre-trained 
model khác nhau, nên không nên dùng feature extractor với toàn bộ ConvNet của pre-trained 
model mà chỉ dùng các layer đầu. Lý do là vì các layer ở phía trước sẽ học các đặc điểm 
chung chung hơn (cạnh, góc,...), còn các layer phía sau trong ConvNet sẽ học các đặc điểm 
cụ thể hơn trong dataset (ví dụ mat, müi,..). 

e Dữ liệu ban có lớn và khác với dữ liệu ở pre-trained model. Ta có thé train model từ đầu, tuy 
nhiên sẽ tốt hơn nếu ta khởi tạo các giá trị weight của model với giá trị của pre-trained model 
và sau đó train bình thường. 

Lưu ý 

* Vi pre-trained model đã được train với kích thước ảnh có định, nén khi dùng pre-trained 
model ta cần resize lại ảnh có kích ảnh bằng kích thước mà ConvNet của pre-trained model 
yêu cầu. 

* Hé só learning rate của ConvNet của pre-trained model nên được đặt với giá trị nhỏ vì nó đã 
được học ở pre-trained model nên ít cần cập nhật hơn so với các layer mới thêm. 


11.2 Data augmentation 


Ngoài transfer learning, có một kĩ thuật nữa giải quyết van dé có ít dữ liệu cho việc training model, 
đó là data augmentation. Augmentation là kĩ thuật tạo ra dữ liệu training từ dữ liệu mà ta đang có. 
Cùng xem một số kĩ thuật augmentation phổ biến với ảnh nhé. 


Flip: Lật ngược ảnh theo chiều dọc hoặc chiều ngang 
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Hình 11.7: lật ngược ảnh theo chiều dọc 


Rotation: Quay ảnh theo nhiều góc khác nhau 
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Hình 11.8: Rotate ảnh 30 độ 


Scale: Phóng to hoặc thu nhỏ ảnh 
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Hinh 11.9: Scale anh 


Crop: Cắt một vùng ảnh sau đó resize vùng ảnh đấy về kích thước ảnh ban đầu 
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Hình 11.10: Crop ảnh 


Translation: dịch chuyển ảnh theo chiều x, y. 
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Hình 11.11: Translate ảnh 30px theo phương x, 10px theo phương y 


Tuy nhiên khi rotate hoặc translation thì ảnh bị những khoảng đen mà thường ảnh thực tế không có 
các khoảng đen đấy nên có một số cách để xử lý như: lấy giá trị từ cạnh của ảnh mới để cho các 
pixel bị den, gan các giá tri đen bằng giá trị của ảnh đối xứng qua canh... 


Nên áp dụng kiểu augmentation nào thì tùy thuộc vào ngữ nghĩa của ảnh trong bài toán bạn 
đang giải quyết. 


**** Ngoài ra người ta còn dùng GAN cho semi-supervised learning 


Training dataset 


Input noise 


Real classes Fake classes 


Hình 11.12: Ung dung GAN cho semi-supervised learning [24] 


Y tưởng là generator giống như một nguón cung cấp ảnh mới, discriminator giờ có 2 việc: 
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* nhận diện anh fake va anh that 
* phân loại ảnh 
Tài liệu cho ai muốn đọc thêm ở đây. 


11.3 Bồi tập 


1. Có mấy kiểu transer learning? khi nào nên dùng kiểu transfer learning nào? 

2. Data augmentation là gi? Tác dụng của augmentation? 

3. Áp dung kĩ thuật transfer learning va augmentation cho các bài toán phân loại ảnh trong 
những bài trước xem hiệu quả có tốt hơn không? 
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Hinh 11.4: Ta bó các Fully Connected layer ở model VGG16 đi và thêm vào các Fully Connected 
layer mói [21] 


12. Các kỹ thuật co ban trong deep learning 


Bài này tôi tổng hợp một số kĩ thuật để train model tốt hơn, cũng như một số khái niệm bạn sẽ gặp 
khi làm việc với deep learning. Đầu tiên tôi nói về tầm quan trọng của vectorization, tiếp tôi sẽ 
nói về kĩ thuật mini-batch gradient descent với lượng dữ liệu lớn. Sau đó tôi nói về bias, variance, 
cách đánh giá bias-variance trong model và một số biện pháp để giải quyết van dé high bias, high 
variance. Tôi có giải thích về kĩ thuật dropout để tránh overfitting. Phần cuối tôi nói về vanishing và 
exploding gradient, cũng như giới thiệu một số ham activation function phổ bién và cách chon ham 
activation. 


12.1 Vectorization 
Ngay từ bai đầu tiên vé linear regression, tôi đã giới thiệu về việc biểu diễn và tính toán dưới dạng 
vector. Việc biểu diễn bài toán dưới dạng vector như vậy gọi là vectorization. Nó không chỉ giúp 
code gọn lại mà còn tăng tốc độ tính đoán một cách đáng kể khi thực hiện các phép tính trên vector, 
ma trận so với for-loop. 


# -*- coding: utf-8 -*- 


import numpy as np 
import time 


a 
b 


mp. random. rand (10000000) 
np. random. rand (10000000) 


start = time.time() 
c = np.dot(a, b.T) 
end = time.time() 


print("Vectorization time : ", end-start) 


12.2 
12.2.1 
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start = time.time() 
in range(len(a)): 
+= ali] * bli] 
end time.time() 


print("For-loop time : ", end-start) 
Ban sẽ thấy nếu dùng for-loop mát hơn 4s để nhân 2 vector trong khi dùng thư viện numpy dé tính 
chỉ mất 0.01s. Tại sao lại như thế nhỉ? 


Giả sử bạn có 10 tan hàng cần vận chuyển từ A đến B và bạn có một xe tải với khả năng chở được 5 
tấn mỗi lần. Vậy nếu chất đầy hàng mỗi lần chở thì chỉ cần 2 lần chạy là chuyển hết số hàng. Tuy 
nhiên néu mỗi làn ban chỉ chat 1 tán hàng lên xe để chở di thì xe cần đi tới 10 lần để chuyển hết só 
hàng. 


Tương tự như vậy, khi nhân 2 vector ở trên bạn cần thực hiện 10000000 phép tính nhân 2 số. 
Giả sử máy tính có thể tính được tối đa 1000 phép tính nhân một lúc. Việc bạn dùng for-loop giống 
như mỗi thời điểm bạn chỉ yêu cầu máy tính thực hiện một phép nhân, nên để nhân 2 vector sẽ cần 
10000000 đơn vị thời gian. Tuy nhiên thư viện numpy sẽ tối ưu việc tính toán bằng cách yêu cầu 
10000000 g 
———— = 10000 đơn vi thời gian dé 


hoàn thành phép nhân 2 vector. Vậy nên là việc vectorization thông thường sé tính toán nhanh hon. 


máy tính thực hiện 1000 phép tính một lúc, tức là chỉ cần 


Mini-batch gradient descent 


Mini-batch gradient descent là gi 

Ó trong thuát toán gradient descent, tai buóc thú hai khi ta tính dao hám cúa loss function vói các 
biến. Trong bai linear regression, ta dùng tat cả các dữ liệu trong dataset dé tinh dao ham rồi cập 
nhật bước 2: 


] m1 11 
g ] r9 ya 
X = y i 

1 En Un 
dJ dJ d : 
pete —Y), E pene 1] (Y —Y)) 
dwo dun 

( dJ 

Wo = Wo — learning-rate * , wy = w — learning.rate * 


dp du 
Thuật toán gradient descent chạy tốt nhung số lượng dif liệu trong training set chỉ là 30. Tuy nhiên 
nếu dif liệu có kích thước lớn như ảnh và số lượng lớn hơn ví dụ 5000 thì việc tính đạo hàm với loss 
function với toàn bộ dữ liệu sẽ rất tốn thời gian. Và mini-batch gradient descent ra đời để giải quyết 
vẫn đề đấy. 


Dựa vào số lượng dữ liệu cho mỗi lần thực hiện bước 2 trong gradient descent là người ta chia ra 
làm 3 loại: 
* Batch gradient descent: Dùng tat cả dif liệu trong training set cho mỗi lần thực hiện bước tính 
dao ham. 
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e Mini-batch gradient descent: Dùng một phan dữ liệu trong training set cho mỗi làn thực hiện 
buóc tính dao hàm. 

* Stochastic gradient descent: Chi düng mot dif liéu trong training set cho mói làn thuc hién 
buóc tính dao hàm. 


Vi dụ điểm thi đại học trung bình của một trường trung hoc phó thông là 24 điểm. Batch gradient 
descent giống như tính điểm trung bình tất cả học sinh thi đại học năm nay của trường, con số sẽ 
tương đối gần 24, ví du 24,5. Mini-batch sẽ chọn ngẫu nhiên một só hoc sinh, ví dụ 32 học sinh dé 
tính điểm trung bình thì điểm trung bình sẽ xa 24 hơn ví dụ 22. Tuy nhiên, Stochastic giống như chỉ 
chọn một học sinh làm điểm trung bình, thì lúc này điểm trung bình có thể khác xa con số 24 rất 
nhiều, ví dụ 18 hoặc 29. Việc điểm trung bình ở mini-batch hay stochastic khác so với điểm trung 
bình toàn trường gọi là nhiễu trong dữ liệu. Hay giải thích đơn giản là chỉ lấy 1 hoặc một phần dữ 
liệu thì không thể mô tả hết được tất cả dữ liệu. 


Do đó hàm loss-function với hệ só learning, rate phù hợp thì batch gradient descent theo epoch 
sẽ giảm đều đặn. Vì có nhiễu trong dif liệu nên mini-batch thì vẫn giảm nhưng có dao động và 
stochastic có giảm nhưng dao động cực kì lớn. 


Batch gradient descent Mini-batch gradient descent 


A 


cost 
cost 


J0) J(w) 


# iterations Mini-batch # 


Hình 12.1: So sánh loss function khi dùng batch va mini-batch [13] 


Hình dưới là biểu diễn biệc cập nhật hệ số trong gradient descent, điểm đỏ là giá trị nhỏ nhất ta 
cần tìm, các điểm ở ngoài cùng là giá trị khởi tạo của hệ số trong gradient descent. Ta có thể thấy 
vì không có nhiễu nên batch gradient descent thì hệ số cập nhật trực tiếp theo 1 đường thang. 
Mini-batch thì mat nhiều thời gian hơn va còn đi chệch hướng tuy nhiên thì vẫn đến được điểm đỏ. 
Còn stochastic thì di khá lòng vòng để đến được điểm đỏ và vì dữ liệu quá nhiễu nên có thể thuật 
toán gradient descent chỉ quanh điểm đỏ mà không đến được điểm đỏ (minimum point). 


12.2.2 
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— Batch gradient descent 
— Mini-batch gradient Descent 
— Stochastic gradient descent 


Hình 12.2: Cập nhật loss function đến minimum point của các thuật toán [13] 


Batch gradient descent thường được dùng khi số lượng dữ liệu trong training set nhỏ hơn 2000. 
Với lượng dữ liệu lớn thì mini-batch gradient descent được sử dụng. Nó có thể giải quyết được 
van dé lượng dữ liệu quá lớn nhu trong batch gradient descent, hơn nữa đỡ nhiễu và có thé dùng 
vectorization so với stochastic gradient descent nên thường được sử dụng trong deep learning. 


Các thông số trong mini-batch gradient descent 
Ví dụ code trong bài 7, trong bài toán phân loại chữ số cho dữ liệu MNIST 


X 7. Thục hiên train model vdi data 
H = model.fit(X_train, Y_train, validation_data=(X_val, Y_val), 
batch_size=32, epochs=10, verbose=1) 


X_train, Y_train là dữ liệu va label cho training set. Tương tu X_val, Y_val là dữ liệu cho validation 
set. 


batch_size: Là size trong mini-batch gradient descent, nghĩa là dùng bao nhiêu dif liệu cho mỗi lần 
tính và cập nhật hệ só. 


steps_per_epoch: Là bao nhiêu lần thực hiện bước 2 trong gradient descent trong mỗi epoch. 
Mặc định sẽ là số lượng dữ liệu chia cho batch_size. Hiểu đơn giản là mỗi epoch sẽ dùng hết các dữ 
liệu để tính gradient descent. 


epochs: số lượng epoch thực hiện trong quá trình training. 


Vậy thực sự số lần thực hiện bước 2 trong gradient descent trong quá trình training là: epochs * 
steps_per_epoch. 


Loi khuyén: 
e Batch, size nén được chon là số mũ của 2 ví du 16, 32, 64, 128 để CPU/GPU tính toán tốt 
hơn. Giá trị mặc định là 32. 
e Nên vẽ đồ thị loss/epoch để chon batch_size phù hợp. 
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12.3 Bias và variance 


12.3.1 Bias, variance là gi 
Bias: nghĩa là độ lệch, biểu thi sự chênh lệch giữa giá tri trung binh mà mô hinh dự đoán và giá tri 
thực tế của dữ liệu. 
Variance: nghĩa là phương sai, biểu thị độ phân tán của các giá trị mà mô hình dự đoán so với giá 
trị thực tế. 
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Underfitting x 
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Overfitting 


Giá trị that dữ liệu (ground truth) ở giữa tâm các đường tròn. Các dấu X là các giá trị dự đoán. Ta 
thấy néu high bias thì giá trị dự đoán rất xa tâm. Tuy nhiên nếu high variance thì các giá tri dự đoán 
phân tán rộng dẫn đến việc ra giá trị thực tế. => Ta mong muốn low bias và low variance. 


— | 
> “just right” high variance 


Day la bai toán logistic regression, cán tim dudng phán chia dí liéu. 


12.3.2 


12.3.3 
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e Ó hinh 1, thi đường phân chia có khá nhiều điểm bi lỗi => sự chênh lệch giữa mô hinh du 
đoán và giá trị thực tế của dữ liệu cao => high bias, hay còn được gọi là underfitting, ý hiểu 
là mô hình hiện tại đơn giản hơn và chưa mô tả được mô hình của dữ liệu thực tế. 

e Ó hinh 2, đường phân chia vẫn có lỗi nhưng ở mức chấp nhận được và nó có thể mô tả dit 
liệu => low bias, low variance. 

e Ó hinh 3, đường phân chia có thé dự đoán đúng tat cả các điểm trong training set nhưng vì nó 
không tổng quát hóa mô hình dữ liệu thực sự nên khi áp dụng dự đoán vào validation set thì 
sẽ có rất nhiều lỗi => high variance hay còn được gọi là overfitting, ý hiểu là mô hình hiện 
tại thực hiện tốt với dữ liệu trong training set nhưng dự đoán không tốt với validation set. 

Thực ra khái niệm high bias và high variance khá trìu tượng và nhiều lúc dùng nhàm lẫn giữa thống 
kê và machine learning. Nên khái niệm hay được dùng hơn là underfitting và overfitting. 


Overfitting 


Hình 12.3: Các điểm mau xanh la training set, điểm màu đỏ là validation set 


Vi dụ khi luyện thi đại học, néu ban chỉ luyện khoáng 1-2 đề trước khi thi thì bạn sé bị underfitting 
vì bạn chưa hiểu hết cau trúc, nội dung của dé thi. Tuy nhiên nếu bạn chỉ luyện kĩ 50 dé thầy cô 
giáo bạn soạn và đưa cho thì khả năng bạn sé bị overfitting với các dé mà thầy cô giáo các bạn soạn 
mà khi thi đại học có thể điểm số của các bạn vẫn tệ. 


Bias, variance tradeoff 
Nếu model quá đơn giản thì ta sé bi high bias va low variance. Tuy nhiên nếu model quá phức tap 
thì sẽ bị high variance và low bias. Đấy là bias, variance tradeoff. Do đó để train được model tốt ta 
cần cân bằng giữa bias và variance. 


Dánh gió bias and variance 
Có 2 thông số thường được sử dung để đánh giá bias and variance của mô hinh là training set error 


và validation set error. Vi du error (1-accuracy) trong logistic regression. 


Train set error 1% 15% 15% 0.5% 
Val set error 11% 16% 30% 1% 
High variance | High bias | High bias High variance | Low bias Low variance 


Ta mong muốn model là low bias va low variance. Cùng xem một số cách để giải quyết vấn dé high 
bias hoac high variance nhé. 


Giải quyết high bias (underfitting): Ta cần tăng độ phức tap của model 


e Tăng số lượng hidden layer và số node trong mỗi hidden layer. 

e Dùng nhiều epoch hơn dé train model. 
Giai quyét high variance (overfitting): 

* Thu thập thêm dữ liệu hoặc dùng data augmentation 


12.4 
12.4.1 


12.4.2 


12.4.3 
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* Dung regularization nhu: L1, L2, dropout 


Dropout 


Dropout la gi 


Dropout với hệ số p nghĩa là trong quá trình train model, với mỗi lần thực hiện cập nhật hệ số trong 
gradient descent ta ngẫu nhiên loại bỏ p% số lượng node trong layer đấy, hay nói cách khác là giữ 
lại (1-p%) node. Mỗi layer có thể có các hệ số dropout p khác nhau. 


Ke 


(a) Standard Neural Net (b) After applying dropout. 


Hình 12.4: So sánh model dropout va neural network thông thường [26] 


Ví du mô hình neural network 1-2-1: 1 input layer, 2 hidden layer va 1 output layer. Vi dụ như 
hidden layer 1, ta dùng dropout với p = 0.6, nên chi giữ lai 2 trên 5 node cho mỗi lần cập nhật. 


Dropout han ché viéc overfitting 


Overfitting là mô hình dang dùng quá phức tap so với mô hình thật của dữ liệu. Khi ta dùng dropout 
như hình trên thì rõ ràng mô hình bên phải đơn giản hơn => tránh overfitting. 


Thêm vào đó, vì mỗi bước khi train model thì ngẫu nhiên (1-p%) các node bị loại bỏ nên model 
không thể phụ thuộc vào bất kì node nào của layer trước mà thay vào đó có xu hướng trải đều 
weight, giống như trong L2 regularization => tránh được overfitting. 


Lời khuyên khi dung dropout 


* Hé só p nên ở khoảng [0.2, 0.5] . Nếu p quá nhỏ thì không có tác dụng chóng overfitting, tuy 
nhiên nếu p quá lớn thi gần như loại bỏ layer đấy và có thé dẫn đến underfitting. 

e Nên dùng model lớn, phức tạp hơn vì ta có dropout chóng overfitting. 

* Dropout chỉ nên dùng cho Fully Connected layer, ít khi được dùng cho ConvNet layer 

* Hé số p ở các layer nên tỉ lệ với số lượng node trong FC layer đó. 


12.5 


12.5.1 


12.5.2 
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Activation function 


Non-linear activation function 


Ham activation function được dùng sau bước tinh tổng linear trong neural network hoặc sau convo- 
lutional layer trong CNN. Và ham activation là non-linear function. 


Linear function la gi? Theo wiki, "a linear function from the real numbers to the real num- 
bers is a function whose graph is a line in the plane ", tóm lai linear function là một đường thang 


dạng y = a*x + b. Vậy sẽ ra sao nếu ham activation trong neural network là một linear function? 


Gia sử ham activation dang y = f(x) = 2*x + 3 va neural network như sau: 


Hình 12.5: Mô hình neural network, 1-2-1. 


zP =b” + xx D >a” ic» 2x20 +3 22x (b sall +43 


Tuong tu 
al exi (pf? +x*w)) +3 


Do đó 

$ =a? = fP) = 220 +3= 2x (bP +at) xw) ta xw) +43 —2* (p? +(2* (ll + 
xxw) +3) xwe + (2x (95) +xxw)) +3) x wi?) +3=xx (4x will swe +4xwl) xwe) + 
(2+ (BP) + (2b)? +3) wi + (2b)? +3) wi) +3) 


Tóm lai $ = x*a-+b hay nói cách khác mô hinh neural network chi là mô hinh linear regres- 
sion đơn giản => Ham activation function phải là non-linear function. 


Vanishing va exploding gradient 


Backpropagation là thuật toán được dùng để tính dao hàm các hệ số trong neural network với loss 
function dé rồi áp dụng gradient descent để tìm các hệ số. 
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(0) =D 


Input layer Output layer 
Hidden layer 1 Hidden layer 2 


Hinh 12.6: M6 hinh neural network 2-3-3-1 


os os os oJ oJ oJ 
ow) — abt) 0 A OwO ab?) oJ ôw®  ôb3 a 
4 da) Ca) 4 e$ 


Hinh 12.7: Quá trinh backpropagation 


Ta có: (3) o 

oJ oJ 9A oJ oJ JA 

— =(—> WOW va —— = w(@ 7 
aa ap az "WY và sa = Gao S 2z) * (7) 
oJ 37 ` 2A8) aA) 

5 = (3))T (2)\T 

SES EËIO (pozo WI ) 
F 2A8) 
Ta tạm kí hiệu đạo hàm của biên qua hàm activation 2zñ =p 
Có thé tam hiéu la: n s = sài + DO a pO „ 6) a Will 
ðA) oY 
A z x oJ oJ n (i) n (i) 
Nêu neural network có n layer thi —— = — * I] D x I] WII (1) 
øAĐ_ OY Gr iu 


Nhan xét: 

e Nếu các hệ số W và D đều nhỏ hon 1 thi khi tinh gradient ở các layer đầu ta sẽ phái nhân tích 
của rat nhiều số nhỏ hơn 1 nên giá tri sé tiền dàn vé 0 và bước cáp nhật hệ số trong gradient 
descent trở nên vô nghĩa và các hệ số neural network sẽ không học được nữa. => Vanishing 
gradient 
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e Nếu các hệ số W và D đều lớn hơn 1 thì khi tinh gradient ở các layer dau ta sẽ phải nhân tích 
của rất nhiều số lớn hơn 1 nên giá trị sẽ tién dần về vô cùng và bước cập nhật hệ số trong 
gradient descent trở nên không chính xác và các hệ số neural network sẽ không học được 
nữa. => Exploding gradient 


Cách giải quyết vaninshing/exproding gradient là lựa chọn các giá trị khởi tao cho hệ số phù hợp va 
chọn activation function phù hợp. 


12.5.3 Một só activation thông dung 


Sigmoid activation function 


Hinh 12.8: Ham sigmoid 


Dao ham ham sigmoid 


Ehe 


ae l+e~* dx 4 


1 : ` 
Ví dụ ey =9x 107! nén nếu bạn nhìn vào công thức (1) ở trên thì ở những layer đầu tiên sẽ 
bi vanishing gradient. 
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Tanh activation function 


Hinh 12.9: Ham tanh 


X_ ¿Xx 
Ham tanh: g(x) = mE giá tri g(x) trong doan (-1,1) 
ei Le 


AE uu 
dx 


Dao ham ham tanh: <= 1. Do đó khi dùng tanh activation function sé 


— g(x) 
bi vanishing gradient. 


ReLU activation function 


Hinh 12.10: Ham tanh 


Hàm relu (rectified linear unit): y = max(0, x) 

Nhận xét: 

* Hàm ReLU activation đơn giản để tính => thời gian train model nhanh hơn. 

* Đạo ham là 1 với x >= 0 nên không bi vanishing gradient. 
Tuy nhiên với các node có giá trị nhỏ hơn 0, qua ReLU activation sẽ thành 0, hiện tượng đấy gọi là 
"Dying ReLU". Nếu các node bị chuyển thành 0 thì sẽ không có ý nghĩa với bước linear activation 
ở lớp tiếp theo và các hệ số tương ứng từ node đấy cũng không được cập nhật với gradient descent. 
=> Leaky ReLU ra đời. 
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Leaky ReLU 


Leaky ReLU 


0.01x forx<0 
f(x)= 
x forx=>0 


Hinh 12.11: Ham Leaky ReLU 


Ham Leaky ReLU có các điểm tốt của ham ReLU và giải quyết được van dé Dying ReLU bằng 
cách xét một độ dốc nhỏ cho các giá trị âm thay vì để giá trị là 0. 


Lời khuyên: Mặc định nên dùng ReLU làm ham activation. Không nên dùng hàm sigmoid. 


12.6 Batch Normalize 


Một trong những giả định chính trong được đưa ra trong quá trình huấn luyện một mô hình học 
máy đó là phân phối của dữ liệu được giữ nguyên trong suốt quá trình training. Đối với các mô hình 
tuyến tính, đơn giản là ánh xạ input với output thích hợp, điều kiện này luôn được thỏa mãn. Tuy 
nhiên, trong trường hợp Neural Network với các lớp được xếp chồng lên nhau, ảnh hưởng của các 
hàm activation non-linear, điều kiện trên không còn đúng nữa. 


Trong kiến trúc neural network, đầu vào của mỗi lớp phụ thuộc nhiều vào tham số của toàn 
bộ các lớp trước đó. Hậu quả là trong quá trình backprop, các trọng số của một lớp được cập nhật 
dẫn đến những thay đổi về mặt dữ liệu sau khi đi qua lớp đó, những thay đổi này bị khuyếch đại khi 
mạng trở nên sâu hơn và cuối cùng làm phân phối của bản đồ đặc trưng (feature map) thay đổi, đây 
được gọi là hiện tượng covariance shifting. Khi huấn luyện, các lớp luôn phải điều chỉnh trọng số 
để đáp ứng những thay đổi về phân phối dữ liệu nhận được từ các lớp trước, điều này làm chậm quá 
trình hội tụ của mô hình. 


12.6.1 Phân tích nguyên nhân 

Vấn dé 1 : Khi dữ liệu chứa nhiều thành phần lớn hơn hoặc nhỏ hơn 0 và không phân bố quanh giá 
trị trung bình 0 (Non zero mean), kết hợp với việc phương sai lớn (high variance) làm cho 
dữ liệu chứa nhiều thành phần rất lớn hoặc rất nhỏ. Trong quá trình cập nhật trọng số bằng 
gradient descent, giá trị của dữ liệu ảnh hưởng trực tiếp lên giá trị đạo hàm (gradient), do đó 
làm giá trị gradient trở nên quá lớn hoặc qúa nhỏ, như chúng ta đã biết điều này không hề tốt 
chút nào. Hiện tượng trên xuất hiện khá phổ bién, phụ thuộc nhiều vào việc khởi tao trong 
số, và có xu hướng nghiêm trọng hơn khi mạng ngày càng sâu. 
=> Cần một bước normalize các thành phần dữ liệu về cùng mean và chuẩn hóa variance. 


Vấn dé 2 : Các hàm activation non-linear như sigmoid, relu, tanh,... đều có ngưỡng hay vùng bão hòa. 
Khi lan truyền thẳng, nếu dữ liệu có các thành phần quá lớn hoặc quá nhỏ, sau khi đi qua các 
hàm activation, các thành phần này sẽ rơi vào vùng bão hòa và có đầu ra giống nhau. Điều 
này dẫn đến luồng dữ liệu sau đó trở nên giống nhau khi lan truyền trong mang (covariance 
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shifting), lúc nay các lớp còn lại trong mang không con phân biệt được các đặc trưng khác 
nhau. Ngoài ra, đạo hàm tại ngưỡng của các hàm activation bằng 0, điều này cũng khiến mô 
hình bi vanishing gradient. 

=> Cần một bước normalize dif liệu trước khi đi qua ham activation. 


— TANH (norm.) 
— Log. Sigmoid 
— ReLU 


-4 -2 0 2 4 


Hinh 12.12: D6 thi các hàm activation 


12.622 Batch Normalization ra đời 


Batch normalization thuc hién viéc chuán hóa (normalizing) và zero centering (mean substracting) 
dữ liệu trước khi dua qua hàm activation (giá tri trung binh (mean) sẽ được dua vé 0 và phương sai 
(variance) sé dugc dua vé 1). Dé thuc hién 2 cóng viéc trén, batch normalization tính toán phuong 
sai và độ lệch chuẩn của dữ liệu dựa trên các batchs, rồi sử dung 2 tham só y và p tinh chỉnh đầu ra. 


Batch normalization: 


05 = „ Yin 9 — ug) 


#9 = (0 — pp) (08 +8) 
Zi) = Yt p 


Trong đó: 

Hg là giá tri trung bình của batch B 

6; là phương sai của batch B 

20 là giá trị của mẫu thứ i trong batch B sau khi được normalize và zero centering 
z( là đầu ra của mẫu thứ ¡ trong batch B 

y là scaling parameter của lớp 

B là shifting parameter của lớp 

E là smoothing parameter, tránh xảy ra việc chia cho 0, giá trị rất nhỏ 


Chú y: y và B là 2 tham số được học trong quá trình training. 
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12.6.3 Hiệu quá cua batch normalization 


e Batch normalization dua dif liệu vé zero mean và chuẩn hóa variance trước khi dua qua 
activation function nhà dó giái quyét các ván dé vanishing gradient hay exploding gradient. 

* Batch normalization cho phép learning rate lón trong quá trinh huán luyén. 

* Batch-Norm giám thiéu su ánh huóng cüa quá trinh khói tao trong só ban dàu. 

e Batch-Norm chuẩn hóa dif liệu đầu ra của các layer giúp model trong quá trinh huấn luyện 
khóng bi phu thuóc vào mót thành phàn trong só nhát dinh. Do dó, Batch-norm cón dugc sü 
dung như một regularizer giúp giám overfitting 


12.7 Bồi tập 


1. Dùng tất cả kiến thức của bài này để cải thiện accuracy và loss function của các model trong 
bài phân loại ảnh và ô tô tự lái. 
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13. Object detection voi Faster R-CNN 


13.1 Bai toán object detection 


Trong bai 7, sách đã giới thiệu về ứng dung mó hình CNN cho bài toán phân loại ảnh, tuy nhiên các 
ảnh input của bài toán phân loại chỉ bao gồm 01 đối tượng cụ thể như chữ số hay 01 loài hoa. 


Hình 13.1: Ví dụ ảnh trong bài toán phân loại ảnh 


Tuy nhiên là ảnh trong cuộc sống bình thường thì không chỉ có 01 đối tượng mà thường chứa nhiều 
các đối tượng khác. Từ đó nảy sinh van dé cần tìm vi trí của từng đối tượng trong ảnh. Đó là bài 
toán obJect detection. 


13.2 
13.2.1 
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person : 0.992 


` 


horse : 0.993 4 


Hình 13.2: Vi dụ output của object detection [22] 


Bài toán object detection có input là ảnh màu va output là vị trí của các đối tượng trong ảnh. Ta 
thấy nó bao gồm 2 bài toán nhỏ: 
e Xác định các bounding box (hình chữ nhật) quanh đối tượng. 
e Với mỗi bouding box thì cần phán loại xem đấy là đối tượng gi (chó, ngựa, ô tó,...) với bao 
nhiêu phần trăm chắc chắn. 
Việc lựa chọn có bao nhiêu loại đối tượng thì phụ thuộc vào bài toán mà ta đang giải quyết. 


Bạn tự hỏi liệu mô hình CNN có giải quyết được bài toán object detection không? Van đề chính là 
vì không biết trước có bao nhiêu đối tượng trong ảnh, nên không thiết kế được output layer hiệu quả 
=> mô hình CNN truyền thống không giải quyết được => R-CNN (regional convolutional neural 
network) ra đời. 


Faster R-CNN 


R-CNN (Region with CNN feature) 
Ý tưởng thuật toán R-CNN khá don giản 
e Bước 1: Dùng Selective Search algorithm để lay ra khoáng 2000 bounding box trong input 
mà có khả nang chứa đối tượng. 
e Bước 2: Với mỗi bounding box ta xác định xem nó là đối tượng nào (người, ô tô, xe dap. 


Selective search algorithm 
Input của thuật toán là ảnh mau, output là khoảng 2000 region proposal (bounding box) ma có kha 
năng chứa các đối tượng. 
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Dau tiên ảnh được segment qua thuật toán Graph Based Image Segmentation, vì thuật toán dựa vào 
lý thuyết đồ thị và không áp dụng deep learning nên sách không giải thích chỉ tiết, bạn có thể đọc 


theo link ở dưới để tìm hiểu thêm. 


Input Image Output Image 


Hình 13.3: Output sau khi thực hiện graph based image segmentation [23] 


Nhận xét: Ta không thé dùng mỗi mau trong output để làm 1 region proposal được vi: 

e Mỗi đối tượng trong ảnh có thể chứa nhiều hơn 1 màu. 

* Các đối tượng bi che mát một phần nhu cái đĩa dưới cái chén không thé xác định được. 
=> Cần nhóm các vùng màu với nhau để làm region proposal. 


Tiếp theo, các vùng màu được nhóm với nhau dựa trên độ tương đồng về màu sắc, hướng gradient, 
kích thuóc,... 


Cuối cùng các region proposal được xác định dựa trên các nhóm vùng màu. 


Tài liệu cho bạn nào muốn đọc thêm ở 


Phan loai region proposal 

Bài toán trở thành phân loại anh cho các region proposal. Do thuật toán selective search cho tới 
2000 region proposal nên có rất nhiều region proposal không chứa đối tượng nào. Vậy nên ta cần 
thêm 1 lớp background (không chứa đối tượng nào). Ví dụ như hình dưới ta có 4 region proposal, ta 
sẽ phân loại mỗi bounding box là người, ngựa hay background. 


R-CNN: Regions with CNN features 
Leet Warped region Z|eroplane? no. | 


ME > i! | 
1. Input 2. Extract region 3. Compute 4. Classify 
image proposals (~2k) CNN features regions 


Hình 13.4: Các bước trong RCNN [8] 


13.2.2 
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Sau đó các region proposal được resize lại về cùng kích thước và thực hiện transfer learning với 
feature extractor, sau đó các extracted feature được cho vào thuật toán SVM để phân loại ảnh. 


Bên cạnh đó thì extracted feature cũng được dùng để dự đoán 4 offset values cho mỗi cạnh. 
Ví dụ như khi region proposal chứa người nhưng chỉ có phần thân và nửa mặt, nửa mặt còn lại 
không có trong region proposal đó thì offset value có thể giúp mở rộng region proposal để lấy được 
toàn bộ người. 


Vẫn dé với R-CNN 
Hồi mới xuất hiện thì thuật toán hoạt động khá tốt cho với các thuật toán về computer vision trước 
đó nhờ vào CNN, tuy nhiên nó vẫn có khá nhiều hạn chế: 
* Vi với mỗi ảnh ta cần phán loại các class cho 2000 region proposal nên thời gian train rat lâu. 
e Không thể áp dung cho real-time vì mỗi ảnh trong test set mát tới 47s để xử lý. 


Fast R-CNN 


Khoảng 1.5 năm sau đó, Fast R-CNN được giới thiệu bởi cùng tác giả của R-CNN, nó giải quyết 
được một số hạn chế của R-CNN để cải thiện tốc độ. 


Tương tự như R-CNN thì Fast R-CNN vẫn dùng selective search để lấy ra các region proposal. Tuy 
nhiên là nó không tách 2000 region proposal ra khỏi ảnh và thực hiện bài toán image classification 
cho mỗi ảnh. Fast R-CNN cho cả bức ảnh vào ConvNet (một vài convolutional layer + max pooling 
layer) để tạo ra convolutional feature map. 


Sau đó các vùng region proposal được lấy ra tương ứng từ convolutional feature map. Tiếp đó được 
Flatten và thêm 2 Fully connected layer (FCs) để dự đoán lớp của region proposal và giá tri offset 
values cua bounding box. 


Outputs: b b OX 
softmax regressor 


Rol IFC 


Rol feature 
feature map vector 


For each Rol 


Hình 13.5: Các bước trong Fast RCNN [7] 


Tuy nhiên là kích thước của các region proposal khác nhau nên khi Flatten sẽ ra các vector có kích 
thước khác nhau nên không thể áp dụng neural network được. Thử nhìn lại xem ở trên R-CNN đã 
xử lý như thé nào? Nó đã resize các region proposal về cùng kích thước trước khi dùng transfer 
learning. Tuy nhiên ở feature map ta không thể resize được, nên ta phải có cách gì đấy để chuyển 
các region proposal trong feature map về cùng kích thước => Region of Interest (ROI) pooling ra 
đời. 
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Region of Interest (ROI) pooling 


ROI pooling là một dang của pooling layer. Điểm khác so với max pooling hay average pooling là 
bat kể kích thước của tensor input, ROI pooling luôn cho ra output có kích thước cố định được định 
nghĩa trước. 


Ta kí hiệu a/b là phần nguyên của a khi chia cho b va a%b là phần dư của a khi chia cho b. 
Ví dụ: 10/3 2 3 và 10963 = 1. 


Gọi input của ROI pooling kích thước m*n va output có kích thước h*k (thông thường h, k 
nhỏ ví dụ 7*7). 


e Ta chia chiều rộng thành h phần, (h-1) phần có kích thước m/h, phần cuối có kích thước m/h 
+ m%h. 

e Tương tự ta chia chiều dài thành k phần, (k-1) phần có kích thước n/k, phần cuối có kích 
thước n/k + n%k. 


Ví dụ m=n=10, h=k=3, do m/h = 3 và m%h = 1, nên ta sẽ chia chiều rộng thành 3 phần, 2 phần có 
kích thước 3, và 1 phần có kích thước 4. 


Sau đó với mỗi khối được tao ra bằng các đường đỏ và cạnh, ta thực hiện max pooling lấy ra 1 giá 
tri. 
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ROI pooling 


Hình 13.6: Thực hiện ROI pooling 


Ta có thé thay là kích thước sau khi thực hiện ROI pooling về đúng h*k như ta mong muốn. 


Đánh giá Fast R-CNN 
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Hình 13.7: So sánh thời train train va test giữa R-CNN và Fast R-CNN [17] 


Fast R-CNN khác với R-CNN là nó thực hiện feature map với cả ảnh sau đó với lay các region 
proposal ra từ feature map, còn R-CNN thực hiện tách các region proposal ra rồi mới thực hiện 
CNN trên từng region proposal. Do đó Fast R-CNN nhanh hơn đáng kể nhờ tối ưu việc tính toán 
bằng Vectorization. 


Tuy nhiên nhìn hình trên ở phần test time với mục Fast R-CNN thì thời gian tính region pro- 
posal rất lâu và làm chậm thuật toán => Cần thay thế thuật toán selective search. Giờ người ta nghĩ 
đến việc dùng deep learning để tạo ra region proposal => Faster R-CNN ra đời. 


13.2 Faster R-CNN 199 


13.2.3 Faster R-CNN 


Faster R-CNN khong ding thuát toán selective search dé lay ra các region proposal, mà nó thém 
mót mang CNN mói goi là Region Proposal Network (RPN) dé tim các region proposal. 


classifier 


Rol pooling 


proposals 


Region Proposal Network 
feature maps 


conv layers 


Hinh 13.8: Kién trác mói Faster R-CNN [18] 


Đầu tiên ca bức ảnh được cho qua pre-trained model dé lấy feature map. Sau đó feature map được 
dùng cho Region Proposal Network để lay được các region proposal. Sau khi lay được vi trí các 
region proposal thì thực hiện tương tu Fast R-CNN. 


Region Proposal Network (RPN) 


Input cüa RPN là feature map và output là các region proposal. Ta tháy các region proposal là hinh 
chü nhat. 
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B (3,4) 


A (0,0) 


Mà một hình chữ nhật được xác định bằng 2 điểm ở 2 góc, ví dụ A(x min, y min) va B(x max, 
y_ max). Nhận xét: 

* Khi RPN dự đoán ta phải rằng buộc x. min < x_max và y. min < y, max. 

* Hơn nữa các giá trị x,y khi dự đoán có thé ra ngoài khói bức ảnh 
=> Cần một kĩ thuật mới để biểu diễn region propsal => Anchor ra đời. 


Ý tưởng là thay vì dự đoán 2 góc ta sẽ dự đoán điểm trung tâm (x_center, y_center) va width, height 
của hình chữ nhật. Như vậy mỗi anchor được xác định bằng 4 tham số (x_center, y_center, width, 
height). 


Vì không sử dung Selective search nên RPN ban đầu cần xác định các anchor box có thé là 
region proposal, sau đó qua RPN thì chỉ ouput những anchor box chắc chắn chứa đối tượng. 


Hình 13.9: Ví dụ về anchor [21] 


Anh bên trái kích thước 400 * 600 pixel, tác tam của anchor box màu xanh, cách nhau 16 pixel => 
có khoảng (400*600)/(16*16) = 938 tâm. Do các object trong ảnh có thể có kích thước và tỉ lệ khác 
nhau nên với mỗi tâm ta định nghĩa 9 anchors với kích thước 64 x 64, 128 x 128, 256x256, mỗi 
kích thước có 3 tỉ lệ tương ứng: 1: 1, 1:2 và 2: I. 


Giống như hình bên phải với tâm ở giữa 3 kích thước ứng với màu da cam, xanh lam, xanh 
lục và với mỗi kích thước có 3 tỉ lệ. 


=> Số lượng anchor box giờ là 938 * 9 = 8442 anchors. Tuy nhiên sau RPN ta chỉ giữ lại khoảng 
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1000 anchors box để thực hiện như trong Fast R-CNN. 


Viéc cua RPN la lay ra các region proposal giông như selective search thôi chứ không phải 
là phân loại ảnh. 


Mô hình RPN khá đơn giản, feature map được cho qua Conv layer 3*3, 512 kernels. Sau đó 
với mỗi anchor lấy được ở trên, RPN thực hiện 2 bước: 


1. Dự đoán xem anchor đấy là foreground (chứa object) hay background (không chứa object) 
2. Dự đoán 4 offset value cho x_center, y_center, width, height cho các anchor. 


Nhận xét: có rất nhiều anchor bi chồng lên nhau nên non-maxima suppression được dùng để loại bỏ 
các anchor chóng lên nhau. 


Sau cùng dua vào phan trăm du đoán background RPN sé lay N anchor (N có thể 2000, 1000, thậm 
chí 100 ván chay tót) dé làm region proposal. 


Intersection over Union (IoU) 


IoU được sử dung trong bài toán object detection, để đánh giá xem bounding box dự đoán đối tượng 
khớp với ground truth that của đối tượng. 


Area of Overlap 


Area of Union 


Hinh 13.10: Vi du vé IoU [11] 


Vi dụ về hệ số IoU, nhận xét: 


* Chi số IoU trong khoảng [0,1] 
* [oU càng gần 1 thi bounding box dự đoán càng gan ground truth 
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loU: 0,4034 loU: 0.7550 loU: 0,9264 


a 


Poor Good Excellent 


Hình 13.11: Chỉ số IoU [11] 
Ngoài ra thì hệ số IoU cũng được dùng để đánh giá độ khớp của 2 hình chữ nhật. 


Non-maxima suppression 
Ở trong Region Proposal Network đầu tiên ta có khoảng 9000 anchor box (tập Input) tuy nhiên 
ta chỉ muốn giữ lại 100 anchor (tập Ouput) làm region proposal. Ta sẽ làm như sau: 
e Chon ra anchor box (A) có xác suất là foreground lớn nhất trong tập Input. 
* Thêm A vào tập Ouput. 
e Loại bó A và các anchor box trong tập Input mà có hệ số IoU với A lớn hơn 0.5 ra khỏi tập 
Input. 
e Kiểm tra nếu tap Input rỗng hoặc tap Output đủ 100 anchor thì dừng lại, nếu không quay lại 
bước 1. 
Kết quả của Faster R-CNN 


R-CNN Test-Time Speed 


spp.net — 


Fast d i 2.3 


Faster RCNN 0.2 


0 15 30 45 


Comparison of test-time speed of object detection algorithms 


Nhìn ở hinh trên ta thay Faster R-CNN nhanh hon han các dòng R-CNN trước đó, vi vậy có thể 
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dung cho real-time object detection 


13.3 Ung dung object detection 


* Tự động điểm danh: Xác định được vi trí mặt của các học sinh và phán loại các hoc sinh 
trong lớp. 

e Hỗ trợ ô tó tự lái: Xác định được vị trí và phán loại được các phương tiện giao thông, người 
đi bộ. 

* Dự đoán hành vi: Xác định được vi trí và phân loại người => track được người => dùng RNN 
để tự đoán hành vi. 


13.4 Bai tập 


1. Tìm code implement Faster RCNN trên github, download pre-trained model về và chạy thử 
với ảnh mới. 

2. Customize dataset tùy ý và dùng pre-trained model ở trên để train Faster RCNN với dữ liệu 
mới. 


an 


14. Bai toán phat hiện biển só xe may Việt Nam 


14.1 Lời mở đầu 
Bài toán nhận diện biển số xe Việt Nam là một bài toán không còn mới, đã được phát triển dựa trên 
các phương pháp xử lý ảnh truyền thống và cả những kỹ thuật mới sử dụng Deep Learning. Trong 
bài toán này tôi chỉ phát triển bài toán phát hiện biển số (một phần trong bài toán nhận diện biển 
số) dựa trên thuật toán YOLO-Tinyv4 với mục đích: 


e Hướng dẫn chuẩn bi dữ liệu cho bài toán Object Detection. 
e Hướng dẫn huấn luyện YOLO-TinyV4 dùng darknet trên Google Colab. 


14.2 Chuái bị dữ liệu 
14.2.1 Bánh gió bộ dw liệu 
Trong bài viết tôi sử dụng bộ dữ liệu biển số xe máy Việt Nam chứa 1750 ảnh, bạn đọc có thể tải tại 
đây. 


E. 
CH ` 
g> A. 


0010 02063 b.jpg 0011 00515 b.jpg 0012 04539 b.jpg 


` & 


0019 01137 b.jpg 0019 02163 b.jpg 0019 06895 b.jpg 0020 00536 b.jpg 0020 02063 b.jpg 0020 07156 b.jpg 


Hinh 14.1: Ánh biển số trong bộ dif liệu 


Anh bién số xe được trong bộ dữ liệu được chụp từ một camera tại vi trí kiểm soát xe ra vào trong 
hầm. Do vậy: 
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e Kích thước các bién số xe không có sự da dang, do khoảng cách từ camera đến bién số xe 
xáp xi gần bằng nhau giữa các ảnh. 
e Ảnh có độ sáng thấp và gần giống nhau do ảnh được chup trong hàm chung cư. 


=> Cần làm đa dạng bộ dữ liệu. 


14.2.2 Các phương pháp tăng su da dang cua bộ dù liệu 
Da dang kích thước cúa biển só 
Đa dạng kích thước bằng 2 cách: 
e Cách I: Thu nhỏ kích thước biển bằng cách thêm bién kích thước ngẫu nhiên vào ảnh góc, 
sau đó resize ảnh bằng kích thước ảnh ban đầu. 
e Cách 2: Crop ảnh chứa biển số với kích thước ngẫu nhiên, sau đó resize ảnh bằng kích thước 
ảnh ban đầu. 


# Cách1 
def add_boder(image_path, output_path, low, high): 
low: kích thước biên thấp nhất (pixel) 
hight: kích thước bién Lớn nhất (pixel) 
# random các kích thước bién trong khoáng (low, high) 
top = random.randint(low, high) 
bottom = random.randint(low, high) 
left = random.randint(low, high) 
right = random.randint(low, high) 


image = cv2.imread(image_path) 
original_width, original_height = image.shape[1], image.shape[0] 


#sử dựng ham của opencu để thêm bién 
image = cv2.copyMakeBorder (image, top, bottom, left, right, cv2.BORDER_REPLICATE) 


#sau đó resize ánh bằng kích thước ban dau của ánh 


image = cv2.resize(image, (original_width, original_height)) 
cv2.imwrite(output_path, image) 


Hình 14.2: Anh thu được (bên phải) sau khi chạy ham trên 
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# Cách2 
def random_crop(image_path, out_path): 
image = cv2.imread(image_path) 


original_width, original_height = image.shape[1], image.shape[0] 
x_center,y_center = original_height//2, original_width//2 


x_left = random.randint(0, x_center//2) 
x_right = random.randint (original_width-x_center//2, original_width) 


y_top = random.randint(0, y_center//2) 
y_bottom = random.randint (original_height-y_center//2, original_width) 


# crop ra ving ánh uới kích thước ngẫu nhiên 

cropped_image = image [y_top:y_bottom, x_left:x_right] 

# resize ánh bằng kích thước ánh ban đầu 

cropped_image = cv2.resize(cropped_image, (original_width, original_height)) 
cv2.imwrite(out_path, cropped_image) 


Hình 14.3: Anh thu được (bên phải) sau khi chạy ham trên 


Thoy đổi độ sóng của ảnh 


def change_brightness (image_path, output_path, value) : 


Hm 


value: độ sáng thay đổi 
img-cv2.imread(image. path) 

hsv = cv2.cvtColor(img, cv2.COLOR_BGR2HSV) 
h, s, v = cv2.split(hsv) 

v = cv2.add(v, value) 

viv > 255] = 255 

viv < 0] =0 


final_hsv = cv2.merge((h, s, v)) 
img = cv2.cvtColor(final_hsv, cv2.COLOR_HSV2BGR) 


cv2.imwrite(output_path, img) 
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Hình 14.4: Độ sáng thay đổi (bên phải) 


Xoay ánh 


import imutils 
def rotate_image(image_path, range_angle, output path): 
range angle: Khoáng góc quay 
image = cv2.imread(image. path) 
#lua chon ngẫu nhiên góc quay 
angle - random.randint(-range angle, range. angle) 


img rot - imutils.rotate(image, angle) 
cv2.imwrite(output path, img rot) 


Hinh 14.5: Ảnh được xoay (bên phải) 


14.2.3 Gan nhữn du liệu 


Tool gán nhãn ở đây tôi dùng là labelImg, ban đọc có thể tải va doc hướng dẫn sử dung tại đây. 


14.3 
14.3.1 
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Hình 14.6: Xác định vùng biển chứa biển số 


Labellmg hỗ trợ gán nhãn trên cả 2 định dạng PASCAL VOC và YOLO với phan mở rộng file 
annotation tương ứng là .xml và .txt. 
Trong bài toán sử dụng mô hình YOLO, tôi lưu file annotation dưới dang .txt. 


b 0.384534 0.346535 0.201271 0.250825 


Hình 14.7: Nội dung trong một file annotation 
Mỗi dong trong một file annotation bao gồm: <object-class> «x» «y» «width» «height». 


Trong đó: <x> <y> <width> <height> tương ứng là tọa độ trung tâm và kích thước của đối 
tượng. Các giá trị này đã được chuẩn hóa lại, do vậy giá trị luôn nằm trong đoạn [0,1]. object-class 
là chỉ số đánh dấu các classes. 


Lưu ý: Với bài toán có nhiều nhãn, nhiều người cùng gán nhãn thì cần thống nhất với nhau 


trước về thứ tự nhãn. Nguyên nhân do trong file annotation chỉ lưu chỉ số (0,1,3,4,...) của nhãn chứ 
không lưu tên nhãn. 


Sau khi gán nhãn xong các bạn để file annotation và ảnh tương ứng vào cùng một thư mục. 


Huốn luyện mô hình 
Giới thiệu về YOLO-Tinyv4 va darknet 
YOLO-Tinyv4 


YOLOv4 là thuật toán Object Detection, mới được công bó trong thời gian gan đây với sự cải thiện 
về kết quả đáng kể so với YOLOv3. 


210 Chương 14. Bài toán phát hiện biển số xe máy Việt Nam 


MS COCO Object Detection 


EfficientDet (DO-D4) real-time 


YOLOv4 (ours) 


ASFF* 


AP 
E 


—— YOLOv4 (ours) 

—9— YOLOv3 [63] 
36 |—m—EtficientDet [77] 
34 | —9—ATSS [94] 

—A— ASFF* [48] 

—*— CenterMask* [40] 


YOLOv3 


10 30 50 70 90 110 130 


FPS (V100) 


Hinh 14.8: Sự cải thiện của YOLOV4 (source) 


YOLOv4 cho kết quá real-time khi chạy trên các nén tang GPU cao cấp. Với mục dich trade-off giữa 
độ chính xác và tốc độ để có thể chạy trên các nền tảng CPU và GPU thấp hơn thì YOLO-Tinyv4 
được ra đời. 


YOLOv4 - 64.9% AP50 
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Hình 14.9: YOLOv4 với YOLO-Tinyv4 (source) 


14.3.2 
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YOLOv4-tiny released: 40.2% AP50, 371 FPS (GTX 1080 Ti) / 330 FPS (RTX 2070) 
e 1770 FPS - on GPU RTX 2080Ti - (416x416, fp16, batch=4) tkDNN/TensorRT ceccocats/tkDNN#59 (comment) 


* 1353 FPS - on GPU RTX 2080Ti - (416x416, fp16, batch=4) OpenCV 4.4.0 (including: transfering CPU->GPU and GPU->CPU) 
(excluding: nms, pre/post-processing) #6067 (comment) 


e 39 FPS - 25ms latency - on Jetson Nano - (416x416, fp16, batch=1) tkDNN/TensorRT ceccocats/tkKDNN#59 (comment) 
e 290 FPS - 3.5ms latency - on Jetson AGX - (416x416, fp16, batch=1) tkDNN/TensorRT ceccocats/tkDNN#59 (comment) 


e 42 FPS - on CPU Core i7 7700HQ (4 Cores / 8 Logical Cores) - (416x416, fp16, batch=1) OpenCV 4.4.0 (compiled with 
OpenVINO backend) #6067 (comment) 


* 20 FPS on CPU ARM Kirin 990 - Smartphone Huawei P40 #6091 (comment) - Tencent/NCNN library 
https://github.com/Tencent/ncnn 


e 120 FPS on nVidia Jetson AGX Xavier - MAX N - Darknet framework 


+ 371 FPS on GPU GTX 1080 Ti - Darknet framework 
Hinh 14.10: YOLO-Tinyv4 trén các nén tang (source) 


Darknet 


Darknet là mót framework open source chuyén vé Object Detection dugc viét báng ngón ngü C và 
CUDA. Darknet dùng để huấn luyện các mô hinh YOLO một cách nhanh chóng, dé sử dung. 


Cấu hinh darknet 


Việc cau hinh trực tiếp trên Google Colab tương đối khó khán với những ban chưa quen làm việc 
với linux, bên cạnh đó vấn đề delay kết nối giữa Google Colab với drive trong một số trường hợp. 
Vì vậy tôi sẽ hướng dẫn các bạn cấu hình trên máy cá nhân, xong nén thành file .zip, sau đó đẩy lên 
Google Drive. 

Việc cấu hình trải qua các bước: 


Bước 1: Clone darknet về máy. 


3rdparty 


Gt Home Downloads darknet e 


cfg 


data include results scripts 


> A > > > 
build.ps1 build.sh CMakeLists.txt darknet.py DarknetConfig. darknet_video.py image_yolov3.sh image_yolov4.sh json_mjpeg_ 
cmake.in streams.sh 
> > ma > > 
LICENSE Makefile net cam v3.sh net cam v4.sh README.md video yolov3.sh video yolov4.sh 


Hinh 14.11: Nói dung trong thu muc via clone vé. 


Bước 2: Sửa file Makefile trong thu muc vira clone vé. 
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ZED CAMERA v2 8-0 


Hinh 14.12: Sửa một vài dòng dau trong file. 


Trong trường hợp huấn luyện mô hinh trên GPU có TensorCores thì ban đọc có thé sửa "CUDNN_HALF=]" 
để tăng tốc độ huấn luyện . Trên Google Colab có hỗ trợ GPU Tesla T4, là GPU có kiến trúc mới 

nhất trên Colab và có TensorCores. Vì vậy, trong trường hợp chắc chắn sẽ có được GPU Tesla T4 

thì bạn đọc có thể sửa "CUDNN_HALF=1". 


Bước 3: Tạo file yolo-tinyv4-obj.cfg. 
Tạo file yolo-tinyv4-obg.cfg với nội dung tương tự file yolov4-tiny.cfg trong thư mục darknet/cfg, 
sau đó chỉnh sử một số dòng: 


Dòng 6: Thay đổi batch=64. Nghĩa là: batch = số ảnh (cả file annotation) được đưa vào huấn 
luyện trong một batch. 

Dòng 7: Thay đổi subdivisions=16. Trong một batch được chia thành nhiều block, mỗi block 
chứa batch/subdivisions ảnh được đưa vào GPU xử lý tại một thời điểm. Weights của mô 
hình được update sau mỗi batch. 

Dòng 20: Thay đổi max_batches=classes*2000, không nhỏ hơn số ảnh trong tập huấn luyện, 
va không nhỏ hơn 6000 (theo đây). VD: max_batches=6000 

Dòng 22: Thay đổi steps= 80%, 90% max_batches. VD: steps=4800,5400. Sau khi huấn 
luyện được 80%, 90% max. batches, learning rate sẽ được nhân với một tỷ lệ (dòng 23 trong 
file), mặc định là 0.1. 

Thay đổi classes=1 trong mỗi layer [yolo], dòng 217, 266. 

Thay đổi filters trong mỗi layer [convolutional] trước layer [yolo] theo công thức filters=(số 
class+5)*3. Trong bài toán này filters=18. 


Chi tiết ý nghĩa của các tham số trong file cfg, bạn đọc có thé xem tại đây. 


Bước 4: Tạo file obj.names chứa tên của các class, sau đó lưu trong thư mục darknet/data. 


Open: A *obj.names Save = 


Lisence Plate 


Hình 14.13: Nội dung file obj.names 


14.3.3 
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Bước 5: Tao file obj.data, sau đó lưu trong thư mục darknet/data. 


classes= 1 


train = data/train.txt 
valid = data/valid.txt 
names = data/obj.names 


backup = backup/ 


Modelica sx Tab Width: 8 y Ln 1, Col 11 v INS 
Hình 14.14: Nội dung file obj.data 


Bước 6: Dua toàn bó thư mục chứa anh va file annotation ở trên vào thu mục darknet/data. 
Bước 7: Download pre-trained weights của YOLO-Tinyv4 tại đây, lưu trong thư mục dark- 
net. 

Bước 8: Nén thu mục darknet thành file darknet.zip, sau đó đưa lên Google Drive. 


Huán luyện model trên colab 


Để thực thi các lệnh command line trong colab sử dung thêm ! trước mỗi câu lệnh. 
Kiểm tra cầu hình GPU dùng command line: !nvidia-smi 


[1] !nvidia-smi 


[> Mon Jul 27 16:06:42 2020 


Teeter eT TCLS ee Te LL ee ee ee ee ee ee eee) + 
| NVIDIA-SMI 450.51.05 Driver Version: 418.67 CUDA Version: 10.1 
EE che e ms msn neiem EN NEE be zm ca ie E mem + 
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | 
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | 
| | | MIG M. | 
===============================+======================+====================== | 
| O Tesla P100-PCIE... Off | 00000000:00:04.0 Off | 9 | 
| N/A 42C PO 27W / 250W | OMiB / 16280MiB | 0% Default | 
| | | ERR! | 
TEE Hee eee eee ee ee ee ee eee ee he ee ee ee ee ee eee eee eee + 
ee re ASS LL REL EEE AS A + 
| Processes: 
| GPU GI CI PID Type Process name GPU Memory | 
| ID ID Usage | 


Hình 14.15: GPU được cung cấp là Tesla P100 


#Sau khi mount vói drive. Chuyén đến thu mục chứa file darknet.zip vita tải lén 
#Vi dụ tôi để ở thu mục gốc của Google Drive 
cd drive/My\ Drive 


#Giái nén file darknet. zip 
‘unzip darknet.zip 


#Chuyén đến thu mục darknet 
cd darknet 
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#Tao thư mục backup để Lưu lai weights khi huan luyén 
#Tén thu muc phái trùng vdi link folder backup trong file obj.data trên 
Imkdir backup 


#Tao file train. tat, valid.tzt theo đoạn code 

import os 

import numpy as np 

#"obj" là tên thu mục chúa cá ánh và file annotation. 
lst files = os.listdir("data/obj/") 

1st_images = [] 


for file in lst_files: 
if "txt" nob ie file: 
lst images.append(file) 


#Tách 200 ánh ra làm tập validation 
random idx = np.random.randint(0, Lenert images), 200) 


#Tao file train.tzt được đặt trong thu muc darknet/data 
with open("data/train.txt","w") as f: 
for idx in range(len(1st images)): 
if idx not in random idx: 
f .write("data/obj/"+lst_images[idx]+"\n") 


#Tao file valid.tzt được đặt trong thu muc darknet/data 
with open("data/valid.txt","w") as f: 
for idx in random_idx: 
f .write("data/obj/"+lst_images[idx]+"\n") 


#Bién dich darknet (chi can bién dich một lần, lần sau dùng bó qua bước này) 
!make 


#Phân quyén thực thi module darknet 
lchmod +x ./darknet 


Bat đầu quá trình huấn luyện sử dung command line: 


!./darknet detector train data/obj.data yolo-tinyv4-obj.cfg yolov4-tiny.conv.29 -map \ 
-dont show > yolotinv4_lisenceplate.log 


Cá pháp tóng quát dé huán luyén: 


!|./darknet detector train [data config file] [model config file] [pre-trained weights] 
-map » [file log saved] 


-map: Dùng để hiển thi mAP được tính trên tập validation. 


Nếu bạn gặp lỗi: CUDA Error: out of memory: File exists thì hãy quay lại sửa subdivisions=32 
trong file yolo-tinyv4-obJ.cfg 
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Theo dõi quá trình huấn luyện 


Quá trình huấn luyện sẽ được lưu vào file yolotinv4_lisenceplate.log, ngoài ra darknet tự động tạo 
ra ảnh chart.png lưu trong thư mục darknet và được cập nhật liên tục để theo dõi trực tiếp thông số 
của quá trình huấn luyện. 


mAPZ[—— 10(100% 100% 
100.0% 
C:0.0% 
Loss 


18.0 ` 


LÀ.SSESSESEIEUIIIIESEIHIEIIEINEEHEHSIHINESESESHNHEESSESHSEHSHHENESHRREHRHHNE —— — 


6.0 eee ee eee j——----—--} --------- -------4 


4.0 


2.0 - 


600 1200 1800 2400 3000 3600 420 4800 5400 60 
current avg loss = 0.0391 iteration = 2500 approx. time left = 0.64 hours 
Press 's' to save : chart.png Iteration number in cfg max_batches=6000 


0.0 
0 


Hình 14.16: chart.png 


Nhận xét: Quá trình huấn luyện hội tụ rất nhanh. Vì vậy có thể dừng sớm sau 2000 batches. 


14.4 Du doan 
Sau khi huấn luyện xong, toàn bó weights sẽ được lưu trong folder backup. 


#Danh sách các weights được Lưu 
Ils backup/ 


yolo-tinyv4-obj 1000.weights yolo-tinyv4-obj best.weights 
yolo-tinyv4-obj 2000.weights yolo-tinyv4-obj last.weights 


216 Chương 14. Bài toán phát hiện biển số xe máy Việt Nam 


Để dự báo một bức ảnh sử dụng cú pháp: 


!./darknet detector test [data config file] [model config file] [best-weights] 
[image path] 

#cụ thể như sau 

!./darknet detector test data/obj.data yolo-tinyv4-obj.cfg \ 
backup/yolo-tinyv4-obj_best.weights test1. jpg 


Kết quả dự đoán được lưu thành file predictions.jpg 


#Hàm sau được dùng để hiển thi kết quả dự đoán lén colab 
def show(path): 

import cv2 

import matplotlib.pyplot as plt 


image = cv2.imread(path) 

original width, original height = image.shape[1], image.shape[0] 

resized image = cv2.resize(image, (2*original width, 2*original height)N 
, interpolation = cv2.INTER_CUBIC) 


resized_image = cv2.cvtColor(resized_image, cv2.COLOR_BGR2RGB) 
plt.figure(figsize= (20, 10)) 

plt.axis("off") 

plt.imshow(resized image) 

plt.show() 


show("predictions. jpg") 


Hình 14.17: Kết qua du đoán 


Code và dataset đã gán nhãn mọi người có thể lấy ở đây. 


15.1 


15. Image segmentation với U-Net 


Bai todn image segmentation 


Bài trước bạn đã được giới thiệu vé object detection, đi tim các bounding box quanh các đối tượng 
trong ảnh và sau đó phân loại các bounding box. Tuy nhiên là các bounding box thì không biểu thị 
được đúng hình dạng của đối tượng và có nhiều nhiễu ở trong bounding box đấy ví dụ như trong 
bounding box màu đỏ có cả một phan của cây thông cũng như cái gối => Image segmentation ra 
đời để chia ảnh thành nhiều vùng khác nhau hay tìm được đúng hình dạng của các đối tượng. 


Object Instance 
Detection Segmentation 


Hình 15.1: So sánh object detection va segmentation [4] 
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Cùng thử lay vi du tại sao cần image segmentation nhé. Ung thư là một căn bệnh hiểm nghèo va 
cần được phát hiện sớm để điều trị. Vì hình dạng của các tế bào ung thư là một trong những yếu tố 
quyết định độ ác tính của bệnh, nên ta cần image segmentation để biết được chính xác hình dạng 
của các tế bào ung thư để có các chẩn đoán xác định. Rõ ràng object detection ở đây không giải 
quyết được vấn đề. 


Hình 15.2: Ví dụ về segmentation [15] 


15.1.1 Phân loai bai toán image segmentation 
Bài toán image segmentation được chia ra làm 2 loại: 
* Semantic segmentation: Thực hiện segment với từng lớp khác nhau, ví dụ: tất cả người là 1 
lớp, tất cả ô tô là 1 lớp. 
* Instance segmentation: Thực hiện segment với từng đối tượng trong một lớp. Ví dụ có 3 
người trong ảnh thì sẽ có 3 vùng segment khác nhau cho mỗi người. 


Object Detection Semantic Segmentation Instance Segmentation 


Hinh 15.3: Phan loai semantic segmentation va instance segmentation [27] 


Cần áp dung kiểu segmentation nao thì phụ thuộc vào bài toán. Vi du: can segment người trên 
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đường cho 6 tô tự lái, thi có thể dùng sematic segmentation vì không cần thiết phải phân biệt ai với 
ai, nhưng nếu cần theo dõi mọi hành vi của mọi người trên đường thì cần instance segmentation thì 
cần phân biệt mọi người với nhau. 


15.1.2 Ứng dụng bài toán segmentation 
Ô tô tự Idi 


Segmentation dùng dé xác định đường, các xe ô tô, người đi bộ.... để hỗ trợ cho ô tô tự lái 


DeepLab V3 xception_cityscapes_trainfine (GTX8B0M) IN 
Prediction time: 403ms (2.5 fps) AVG: 356ms (2.8 d 


e g 
DO, 


Chan doán trong y học 


Segmentation được ứng dung rat nhiều trong y hoc để hỗ trợ việc chẩn đoán bệnh. Ví dụ phân tích 
ảnh X-quang. 


Input Image Segmented Image 


Hinh 15.4: Ung dung segmentation [16] 
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15.2 Mang U-Net với bài toán semantic segmentation 


Nhu trong bài xử lý ảnh ta đã biết thi ánh bản chát là một ma tran của các pixel. Trong bài toán 
image segmentation, ta cần phân loại mỗi pixel trong ảnh. Ví dụ như trong hình trên với sematic 
segmentation, với mỗi pixel trong ảnh ta cần xác định xem nó là background hay là người. Thêm 
nữa là ảnh input và output có cùng kích thước. 


U-Net được phát triển bởi Olaf Ronneberger et al. để dùng cho image segmentation trong y 
học. Kiến trúc có 2 phần đối xứng nhau được gọi là encoder (phần bên trái) và decoder (phần bên 


phải). 


15.2.1 Kién trúc mang U-Net 


N 


input 


: | output 
TE wi | kế p bởi segmentation 
map 


kH 


y | 
: € : kki => conv 3x3, ReLU 


B , copy and crop 

e e ` ee # max pool 2x2 
_$ , LE 4 up-conv 2x2 
—— — => conv 1x1 


Fig. 1. U-net architecture (example for 32x32 pixels in the lowest resolution). Each blue 
box corresponds to a multi-channel feature map. The number of channels is denoted 
on top of the box. The x-y-size is provided at the lower left edge of the box. White 


boxes represent copied feature maps. The apos denote the different operations. 


Hinh 15.5: Mang U-Net [20] 


Nhán xét: 

e Thuc ra phan encoder chỉ là ConvNet binh thường (conv, max pool) với quy tắc quen thuộc 
từ bài VGG, các layer sau thi width, height giảm nhung depth tang. 

* Phàn decoder có muc dích là khói phuc lai kích thuóc cüa ánh góc, ta tháy có up-conv la. 
Conv vói stride » 1 thi dé giám kích thuóc cüa ánh gióng nhu max pool, thi up-conv düng dé 
tang kích thuóc cua anh. 

* Ban thấy các đường mau xám, nó nối layer trước với layer hiện tại được dùng rat phổ bién 


15.2.2 
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trong các CNN ngày nay như DenseNet để tránh vanishing gradient cũng như mang được các 
thông tin cần thiết từ layer trước tới layer sau. 


Loss function 
Vi bài toán là phân loại cho mỗi pixel nên loss function sẽ là tổng cross-entropy loss cho mỗi pixel 
trong toàn bộ bức ảnh. 


Transposed convolution 
Hình ở trên có kích thước là 6*6, hình ở dưới có kích thước là 4*4, kernel có kích thước 3*3. 


Nếu ta thực hiện phép tính convolution với input là hình ở trên, padding = 0, stride = 1 và 
kernel 3*3 thì ouput sẽ là hình ở dưới. 


Phép tính transposed convolution thi sẽ ngược lại, input là hình ở dưới, padding = 0, stride = 1 và 
kernel 3*3 thì output sẽ là hình ở trên. Các ô vuông ở hình trên bị đè lên nhau thì sẽ được cộng dồn. 
Các quy tắc về stride và padding thì tương tự với convolution. 


Mọi người có thể xem thêm ở đây. 


Code 
Nhận xét: 
e Day là phan code dé tao model, mô hinh encoder va decoder đối xứng nhau hoàn toàn. 
* Các conv layer đều dùng 3*3 và padding là same để giữ nguyên kích thước. 
* Max pooling kích thước 2*2, mỗi lần pooling width, height giảm 1 nửa, nhung layer sau đó 
depth tăng gấp đôi. 
e Up sampling kích thước 2*2, mỗi lần pooling width, height tăng gap đôi, nhung layer sau đó 
depth giảm một nửa. 
e Concatenate dùng để nói layer đối xứng ở encoder với layer hiện tai có cùng kích thước. 
e Dropout cũng được sử dung để tránh overfitting 
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* Relu activation được dung trong các layer trừ output layer dung sigmoid. 

e Nhu bạn biết sigmoid dùng cho binary classification tuy nhiên néu ban output ra nhiều ra giá 
tri ( vi dụ cả 1 ma trận trong bài nay) và dé loss là binary_crossentropy thì Keras sé hiểu loss 
function là tổng của binary_crossentropy của từng pixel trong ảnh 


inputs = Input (input_size) 


convi = Conv2D(64, 3, activation = 'relu', padding = 'same', \ 
kernel_initializer = 'he_normal') (inputs) 

convi = Conv2D(64, 3, activation = 'relu', padding = 'same', \ 
kernel initializer = 'he_normal') (conv1) 

pooli = MaxPooling2D(pool size-(2, 2)) (conv1) 

conv2 = Conv2D(128, 3, activation = 'relu', padding = 'same', \ 
kernel initializer = 'he normal')(pool1) 

conv2 = Conv2D(128, 3, activation = 'relu', padding = 'same', \ 
kernel_initializer = 'he_normal') (conv2) 

pool2 = MaxPooling2D(pool_size=(2, 2)) (conv2) 

conv3 = Conv2D(256, 3, activation = 'relu', padding = 'same', \ 
kernel initializer = 'he_normal') (pool2) 

conv3 = Conv2D(256, 3, activation = 'relu', padding = 'same', \ 
kernel_initializer = 'he_normal') (conv3) 

pool3 = MaxPooling2D(pool_size=(2, 2)) (conv3) 

conv4 = Conv2D(512, 3, activation = 'relu', padding = 'same', \ 
kernel initializer = 'he normal')(pool3) 

conv4 = Conv2D(512, 3, activation = 'relu', padding = 'same', \ 
kernel_initializer = 'he_normal') (conv4) 


drop4 = Dropout (0.5) (conv4) 
pool4 = MaxPooling2D(pool size-(2, 2)) (drop4) 


conv5 = Conv2D(1024, 3, activation = 'relu', padding = 'same', \ 
kernel initializer = 'he normal')(pool4) 
conv5 = Conv2D(1024, 3, activation = 'relu', padding = 'same', \ 
kernel initializer = 'he normal')(conv5) 


drop5 = Dropout (0.5) (conv5) 


up6 = Conv2D(512, 2, activation = 'relu', padding = 'same', \ 
kernel_initializer = 'he_normal') (UpSampling2D(size = (2,2)) (drop5)) 
merge6 = concatenate([drop4,up6], axis = 3) 


conv6 = Conv2D(512, 3, activation = 'relu', padding = 'same', \ 
kernel_initializer = 'he_normal') (merge6) 
conv6 = Conv2D(512, 3, activation = 'relu', padding = 'same', \ 
kernel_initializer = 'he_normal') (conv6) 


up7 = Conv2D(256, 2, activation = 'relu', padding = 'same', \ 
kernel initializer = 'he_normal') (UpSampling2D(size = (2,2))(conv6)) 
merge7 = concatenate([conv3,up7], axis = 3) 


conv7 = Conv2D(256, 3, activation = 'relu', padding = 'same', \ 
kernel_initializer = 'he_normal') (merge7) 
conv7 = Conv2D(256, 3, activation = 'relu', padding = 'same', \ 


kernel_initializer = 'he_normal')(conv7) 
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up8 = Conv2D(128, 2, activation = 'relu', padding = 'same', \ 


kernel initializer = 'he_normal') (UpSampling2D(size = (2,2))(conv7)) 
merge8 = concatenate([conv2,up8], axis = 3) 

conv8 = Conv2D(128, 3, activation = 'relu', padding = 'same', \ 
kernel_initializer = 'he_normal') (merge8) 

conv8 = Conv2D(128, 3, activation = 'relu', padding = 'same', \ 
kernel_initializer = 'he_normal') (conv8) 


up9 = Conv2D(64, 2, activation = 'relu', padding = 'same', \ 
kernel initializer = 'he normal')(UpSampling2D(size = (2,2))(conv8)) 
merge9 = concatenate([convi,up9], axis = 3) 


conv9 = Conv2D(64, 3, activation = 'relu', padding = 'same', \ 
kernel_initializer = 'he_normal') (merge9) 

conv9 = Conv2D(64, 3, activation = 'relu', padding = 'same', \ 
kernel_initializer = 'he_normal') (conv9) 

conv9 = Conv2D(2, 3, activation = 'relu', padding = 'same', \ 
kernel_initializer = 'he_normal') (conv9) 

conv10 = Conv2D(1, 1, activation = 'sigmoid') (conv9) 


model = Model(input = inputs, output = conv10) 


model.compile(optimizer = Adam(lr = 1e-4), loss = 'binary_crossentropy', \ 
metrics = ['accuracy']) 


Ngoài ra thì ảnh cũng được scale về [0,1] va mask cũng đưa về 0 và 1 với bài toán segmentation chi 
gòm 1 lớp và background 


img = img / 255 

mask = mask /255 
mask[mask > 0.5] = 1 
mask[mask <= 0.5] = 0 


Bên cạnh đó thi data augmentation cũng được sử dung để tăng lượng anh cho training set 


data_gen_args = dict(rotation_range=0.2, 
width shift range-0.05, 
height shift range-0.05, 
Shear range-0.05, 
zoom range-0.05, 
horizontal flip-True, 
fill mode-'nearest') 


Két quá sau khi train model 
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15.3 Bai tập 


1. Doc va hiéu code U-Net 6 link trén github. 
2. Tự tìm bộ dataset mới về segmentation ảnh và chạy trên code U-Net. 
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16.1 


16. Recurrent neural network 


Deep learning có 2 mô hình lớn là Convolutional Neural Network (CNN) cho bai toán có input là 
ảnh va Recurrent neural network (RNN) cho bai toán dữ liệu dạng chuỗi (sequence). Tôi đã giới 
thiệu về Convolutional Neural Network (CNN) và các ứng dụng của deep learning trong computer 
vision bao gồm: classification, object detection, segmentation. Có thể nói là tương đối đầy đủ các 
dạng bài toán liên quan đến CNN. Bài này tôi sẽ giới thiệu về RNN. 


Recurrent Neural Network là gi? 


Bài toán: Cần phân loại hành động của người trong video, input là video 30s, output là phân loại 
hành động, ví dụ: đứng, ngồi, chạy, đánh nhau, bán súng,... 


Khi xử lý video ta hay gặp khái niệm FPS (frame per second) tức là bao nhiêu frame (ảnh) 
mỗi giây. Ví dụ 1 FPS với video 30s tức là lấy ra từ video 30 ảnh, mỗi giây một anh để xử lý. 


Ta dùng 1 FPS cho video input ở bài toán trên, tức là lấy ra 30 ảnh từ video, ảnh 1 ở giây 1, 
ảnh 2 ở giây 2,... anh 30 ở giây 30. Bây giờ input là 30 ảnh: ảnh 1, ảnh 2,... ảnh 30 và output là phân 
loại hành động. Nhận xét: 

e Các ảnh có thứ tự: ảnh 1 xảy ra trước ảnh 2, ảnh 2 xảy ra trước ảnh 3,... Nếu ta đảo lộn các 
ảnh thì có thể thay đổi nội dung của video. Ví dụ: nội dung video là cảnh bắn nhau, thứ tự 
đúng là A bắn trúng người B và B chết, nếu ta đảo thứ tự ảnh thành người B chết xong A mới 
bắn thì rõ ràng bây giờ A không phải là kẻ giết người => nội dung video bị thay đổi. 

* Ta có thể dùng CNN để phân loại 1 ảnh trong 30 ảnh trên, nhưng rõ ràng là 1 ảnh không thé 
mô tả được nội dung của cả video. Ví dụ: Cảnh người cướp điện thoại, nếu ta chỉ dùng 1 ảnh 
là người đấy cầm điện thoại lúc cướp xong thì ta không thể biết được cả hành động cướp. 

=> Cần một mô hình mới có thể giải quyết được bài toán với input là sequence (chuỗi ảnh 1->30) 
=> Recurrent Neural Network (RNN) ra đời. 


16.1.1 


16.1.2 
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Dư liệu dang sequence 

Dữ liệu có thứ tự như các anh tách từ video ở trên được gọi là sequence, time-series data. 

Trong bài toán dự đoán đột quy tim cho bệnh nhân bằng các dữ liệu tim mạch khám trước 
đó. Input là dữ liệu của những lần khám trước đó, ví dụ il là lần khám tháng 1, ¡2 là lần khám tháng 
2,... 18 là lần khám tháng 8. (¡1,12,..i8) được gọi là sequence data. RNN sẽ học từ input va dự đoán 
xem bệnh nhân có bị đột quy tim hay không. 

Ví dụ khác là trong bài toán dịch tự động với input là 1 câu, ví dụ "tôi yêu Việt Nam" thi vi 
trí các từ và su xp xếp cực ki quan trọng đến nghĩa của câu và dữ liệu input các từ [ tôi”, "yéu', 
"việt, 'nam'] được gọi lá sequence data. Trong bài toán xử lý ngôn ngữ (NLP) thì không thể xử 
lý cả câu được và người ta tách ra từng từ (chữ) làm input, giông như trong video người ta 
tách ra các anh (frame) làm input. 


Phôn loai bởi toán RNN 


one to one one to many many to one many to many many to many 


S o 0 op OE 
"ox d Bop th 
EEN ` DUU HU 


Hinh 16.1: Các dang bài toán RNN 


One to one: máu bài toán cho Neural Network (NN) và Convolutional Neural Network (CNN), 1 
input và 1 output, ví dụ với bài toán phán loại ảnh MNIST input là ảnh và output là ảnh day là số nào. 


One to many: bài toán có 1 input nhưng nhiều output, ví dụ với bài toán caption cho ảnh, input là 1 
ảnh nhưng output là nhiều chữ mô tả cho ảnh đấy, dưới dạng một câu. 


"man in black shirt is playing “construction worker in orange "two young girls are playing with 
guitar." safety vest is working on road." lego toy." 


Hinh 16.2: Vi du image captioning [10] 


16.1.3 


16.2 
16.2.1 
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Many to one: bài toán có nhiễu input nhưng chỉ có 1 output, ví dụ bài toán phân loai hành động 
trong video, input là nhiều ảnh (frame) tách ra từ video, ouptut là hành động trong video 


Many to many: bài toán có nhiều input và nhiều output, ví dụ bài toán dịch từ tiếng anh sang tiếng 
việt, input là 1 câu gồm nhiều chữ: "I love Vietnam" và output cũng là 1 câu gồm nhiều chữ "Tôi 
yêu Việt Nam". Dé ý là độ dài sequence của input va output có thể khác nhau. 


Ứng dụng bài toán RNN 
Về cơ bản nếu bạn thấy sequence data hay time-series data và bạn muốn áp dung deep learning thì 
bạn nghĩ ngay đến RNN. Dưới đây là một số ứng dụng của RNN: 

* Speech to text: Chuyển giọng nói sang text. 

* Sentiment classification: Phan loại bình luận của người dùng, tích cực hay tiêu cực. 

* Machine translation: Bài toán dịch tự động giữa các ngôn ngữ. 

* Video recognition: Nhận diện hành động trong video. 

* Heart attack: Dự đoán đột quy tim. 


Mô hinh bài toán RNN 
M6 hinh RNN 


Bài toán: Nhan dién hành dóng trong video 30s. Day là dang bài toán many to one trong RNN, tüc 
nhiéu input và 1 output. 


Input ta sé tách video thành 30 ảnh (mỗi giây một ánh). Các ánh sẽ được cho qua pretrained 
model CNN dé lay ra các feature (feature extraction) vector có kích thuóc n*1. Vector tuong ting 
với anh ở giây thứ i là x;. 


Output là vector có kích thước d*1 (d là số lượng hành động cần phân loại), softmax function được 
sử dụng như trong bài phân loại ảnh. 


X1 X2 X3 X30 


Hinh 16.3: M6 hinh RNN cho bài toán. 


Ta có: 
* Mô hinh có 30 input và 1 output, các input được cho vào model đúng với thứ tự anh trong 
video X1, X2, ---X30- 
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e Mỗi hình tròn được gọi là 1 state, state t có input là x, và s;_¡ (output của state trước); output 
là s, = f (U xx, +W * s; .1). f là activation function thường là Tanh hoặc ReLU. 

e Có thé thấy s; mang cả thông tin từ state trước ( s;_) và input của state hiện tại => s; giống 
nhu memory nhớ các đặc điểm của các input từ x, đến x; 

* sọ được thêm vào chỉ cho chuẩn công thức nên thường được gán bằng 0 hoặc giá trị ngẫu 
nhiên. Có thể hiểu là ban đầu chưa có dif liệu gi để học thi memory rỗng. 

e Do ta chỉ có 1 output, nên sẽ được đặt ở state cuối cùng, khi đó 539 học được thông tin từ tat 
cả các input. $ = g(V * 530). g là activation function, trong bài này là bài toán phân loai nên 
sẽ dùng softmax. 


Ta thấy là ở mỗi state các hệ só W, U là giống nhau nên model có thể được viết lại thành: 


X 


Hình 16.4: Mô hình RNN rút gọn 


Tóm lại: 


* x; là vector có kích thước n*1, s; là vector có kích thước m*1, y; là vector có kích thước d*1. 
U là ma trận có kích thước m*n, W là ma trận có kích thước m*m và V là ma trận có kích 
thước d*m. 

e sọ =0,%; = f(U xx¿-+W * s1) Voit >= 1 

e $ — g(V *530) 


16.2.2 Loss function 


Loss function cüa cá mó hinh báng tóng loss cüa mói output, tuy nhién ó mó hinh trén chí có 1 
output và là bài toán phan loai nén categorical cross entropy loss sé dugc su dung. 
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$30 


Hinh 16.5: Loss function 


16.23 Backpropagation Through Time (BPTT) 
OL OL OL 


Có 3 th t hai tim là W, U, V. Để thực hié dient d t,t tính: 
6 3 tham só ta can phái tim 1a é thuc hién gradient descent, ta cán tí JU IV OW: 
Tinh dao ham vói V thi kha don gian: 


oL OL , 29 
av 93$ "äu 
Tuy nhiên với U, W thì lại khác. 


OL OL du „ 9830 
oW — du E oW 


Do 539 = f(W a 529 +U * x30) có sao phụ thuộc vào W. Nên áp dung công thức hồi cáp 3 ban 
hoc: (f(x) «g(9)' = ƒ (x) g(x) + f(x) * g'(x). Ta có 


dean = dën i dean 0829 


OW | OW Os OW 
vói W. 


? là dao hàm của s39 với W khi coi s29 là constant 


— 30 
oW 


, trong đó 


Tương tu trong biểu thức s29 có sog phụ thuộc vào W, s28 có s27 phụ thuộc vào W ... nén áp 
dụng công thức trên va chain rule: 


ob. L d, 09 dean Os, su 2 sii dei 
* * , trong dó JT và — là dao ham của s; với 
2W mà 405 Oso Os OW? 9 di oy " 


dsj 
W khi coi s;_¡ là constant với W. 


Nhìn vào công thức tính dao hàm của L với W ở trên ta có thé thấy hiện tượng vanishing gradient ở 
các state đầu nên ta cần mô hình tốt hơn để giảm hiện tượng vaninshing gradient => Long short 
term memory (LSTM) ra đời và sẽ được giới thiệu ở bai sau. Vì trong bài toán thực tế liên quan đến 


232 Chuong 16. Recurrent neural network 


time-series data thi LSTM được sử dung phổ biến hon là mô hình RNN thuần nên bai nay không có 
code, bài sau sẽ có code ứng dụng với LSTM. 


16.3 Bồi tập 
1. Hệ số trong RNN là gì? 
2. Thiết kế và train model RNN dự báo giá Bitcoin, tải dữ liệu ở đây. 
3. Tự tìm hiểu và sử dụng mô hình Bidirectional cho bài toán trên. 


17. Long short term memory (LSTM) 


17.1 Giới thiệu vé LSTM 


Bài trước tôi đã giới thiệu về recurrent neural network (RNN). RNN có thể xử lý thông tin dạng 
chuỗi (sequence/ time-series). Như ở bài dự đoán hành động trong video ở bài trước, RNN có thể 
mang thông tin của frame (ảnh) từ state trước tới các state sau, rồi ở state cuối là sự kết hợp của tất 
cả các ảnh để dự đoán hành động trong video. 


X1 X2 X3 X30 


Hinh 17.1: Mó hinh RNN 


OL OL du dean de, ⁄ dean 29 OS ¡+1 
= * * , trong dó 3 = 
S; 


Đạo ham của L với W ở state thứ i: = * 
i oW OF dean Os; OW g x ds; 


Gia sử activation là tanh function, s; = tanh(U * x, +W * s; .1) 


17.2 


234 Chuong 17. Long short term memory (LSTM) 


OS; 3 dean 30—i 29 2 
mora đa hôn cr «Ll 


d OL 
90 a 0 hay —— = 0, hiện tượng vanishing gradient 


Ta có s; < 1,W < 1 => Ő những state xa thi 
5j e OS; oW 


Ta có thé thay là các state càng xa 6 truóc dó thi càng bi vanishing gradient và các hé s6 khong 
được update với các frame ở xa. Hay nói cách khác là RNN không hoc được từ các thông tin ở trước 
đó xa do vanishing gradient. 


Như vậy về ly thuyết là RNN có thể mang thông tin từ các layer trước đến các layer sau, nhưng thực 
tế là thông tin chỉ mang được qua một số lượng state nhất định, sau đó thì sẽ bị vanishing gradient, 
hay nói cách khác là model chỉ học được từ các state gần nó => short term memory. 


Cùng thử lấy vi dụ về short term memory nhé. Bài toán là dự đoán từ tiếp theo trong đoạn 
văn. Đoạn đầu tiên "Mặt trời mọc ở hướng ...", ta có thể chỉ sử dụng các từ trước trong câu để đoán 
là đông. Tuy nhiên, với đoạn, "Tôi là người Việt Nam. Tôi đang sống ở nước ngoài. Tôi có thể nói 
trôi chảy tiếng ..." thì rõ ràng là chỉ sử dụng từ trong câu đấy hoặc câu trước là không thé dự đoán 
được từ cần điền là Việt. Ta cần các thông tin từ state ở trước đó rất xa => cần long term memory 
điều mà RNN không làm được => Cần một mô hình mới để giải quyết van dé này => Long short 
term memory (LSTM) ra đời. 


Mô hinh LSTM 


Ở state thứ t của mô hình LSTM: 
e Output: c;,h;, ta goi c là cell state, h là hidden state. 
* Input: c; 1,71; 4,x;. Trong đó x, là input ở state thứ t của model. cy, De ¡ là output của layer 
trước. h đóng vai trò khá giống nhu s ở RNN, trong khi c là điểm mới của LSTM. 


Hình 17.2: Mô hình LSTM [25] 
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Cách doc biểu đồ trên: bạn nhìn thấy kí hiệu o, tanh ý là bước đấy dùng sigma, tanh activation 
function. Phép nhân ở đây là element-wise multiplication, phép cộng là cộng ma trận. 


Lire tưởng ứng với forget gate, input gate va output gate. 
* Forget gate: f; = o (Up xx; + Wy *y_1 + by) 
* Input gate: i, = o (U; x; +W;  h; 1 + bị) 
* Output gate: o; = o (U, * x, + Wo *y_-1 + bạ) 
Nhận xét: 0 < f;,1,,0; < 1; bf, bi, bạ là các hệ số bias; hệ số W, U giống như trong bai RNN. 


€, = tanh(U. * x; + We *h;-1 +b-), bước này giống hệt nhu tính s; trong RNN. 


Ct = fi * ci 14 i; * 6, forget gate quyét dinh xem càn lay bao nhiêu từ cell state trước va in- 
put gate sẽ quyết định lay bao nhiêu từ input của state và hidden layer của layer trước. 


h, = o; *tanh(c;), output gate quyết định xem cần lay bao nhiêu từ cell state để trở thành output 
của hidden state. Ngoài ra h cũng được dùng để tính ra output y, cho state t. 


Nhận xét: h,,€, khá giống với RNN, nén model có short term memory. Trong khi đó c; giống 
như một băng chuyên ở trên mô hinh RNN vậy, thông tin nào cần quan trong và dùng ở sau sẽ được 


gửi vào và dùng khi cần => có thể mang thông tin từ đi xa=> long term memory. Do đó mô hình 
LSTM có ca short term memory và long term memory. 


Hinh 17.3: cell state trong LSTM 


17.3 LSTM chỗng vanishing gradient 


9C. ac, CLOTS 9C? 
ZC 


Xt+1 


Hình 17.4: Mô hình LSTM [9] 


Ta cting áp dung thuat toán back propagation through time cho LSTM tuong tu nhu RNN. 
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e d 
Thanh phan chính gây là vanishing gradient trong RNN là " 


= (1— 32) «W, trong đó s;,W < 1. 


St 


"E. 
Tuong tu trong LSTM ta quan tam dén 5 s: 


= fi. Do 0< f, < 1 nén vé co bản thì LSTM 
Cr-1 


van bi vanishing gradient nhưng bị ít hơn so với RNN. Hơn thé nữa, khi mang thông tin trên cell 
state thi ít khi cần phải quên giá tri cell cũ, nên f; ~ 1 => Tránh được vanishing gradient. 


Do đó LSTM được dùng phổ biến hơn RNN cho các toán thông tin dạng chuỗi. Bài sau tôi 
sẽ giới thiệu về ứng dụng LSTM cho image captioning. 
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1. Mô hình LSTM tốt hơn mô hình RNN ở điểm nào? 
2. Dùng mô hình LSTM cho bài toán dự đoán bitcoin ở bai RNN. 


18. Ứng dụng thêm mô tá cho ánh 


Ở những bài trước tôi đã giới thiệu về mô hình Recurrent Neural Network (RNN) cho bài toán dữ 
liệu dạng chuỗi. Tuy nhiên RNN chỉ có short term memory và bị vanishing gradient. Tiếp đó tôi đã 
giới thiệu về Long short term memory (LSTM) có cả short term memory và long term memory, 
hon thé nữa tránh được vaninishing gradient. Bai nay tôi sẽ viết về ứng dụng của LSTM cho ứng 
dung image captioning. 


18.1 Ung dung 


"man in black shirt is playing “construction worker in orange "two young girls are playing with 
guitar." safety vest is working on road." lego toy." 


Hinh 18.1: Vi du image captioning [10] 


Ta có thé thay ngay 2 ứng dung của image captioning: 
* Dé giúp những người già mắt kém hoặc người mù có thể biết được cảnh vật xung quanh hay 
hỗ trợ việc di chuyển. Quy trình sẽ là: Image -> text -> voice. 
e Giúp google search có thể tìm kiếm được hinh ảnh dựa vào caption. 


18.2 


18.3 
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Dataset 


Dữ liệu dùng trong bài này là Flickr8k Dataset. Mọi người tai ở day. Dữ liệu gồm 8000 anh, 6000 
ảnh cho training set, 1000 cho dev set (validation set) và 1000 ảnh cho test set. 


Bạn tải vé có 2 folder: Flicker8k_Dataset và Flicker8k_Text. Flicker8k_Dataset chứa các ảnh 
với tên là các id khác nhau. Flicker8k_Text chứa: 


* Flickr 8k.testlmages, Flickr_8k.devImages, Flickr_8k.trainImages, Flickr_8k.devImages 
chứa id các anh dùng cho việc test, train, validation. 
e Flickr8k.token chứa các caption của anh, mỗi anh chứa 5 captions. 


Ví dụ anh ở hình 18.2 có 5 captions: 


* A child in a pink dress is climbing up a set of stairs in an entry way. 
* A girl going into a wooden building. 

* A little girl climbing into a wooden playhouse. 

* A little girl climbing the stairs to her playhouse. 

* A little girl in a pink dress going into a wooden cabin. 


Thực ra 1 ảnh nhiều caption cũng hợp ly vì bức ảnh có thể được mô tả theo nhiều cách khác nhau. 
Một ảnh 5 caption sẽ cho ra 5 training set khác nhau: (ảnh, caption 1), (ảnh, caption 2), (ảnh, 
caption 3), (ảnh, caption 4), (ảnh, caption 5). Như vậy training set sẽ có 6000 * 5 = 40000 dataset. 


Phôn tích bai toán 
Input là ảnh và output là text, ví dụ "man in black shirt is playing guitar". 


Nhìn chung các mô hình machine learning hay deep learning đều không xử lý trực tiếp với 
text như "man", ’in’, "black',... mà thường phải quy đổi (encode) về dạng só. Từng từ sé được encode 
sang dạng vector với độ dài số định, phương pháp đấy gọi là word embedding. 


Nhìn thấy output là text nghĩ ngay đến RNN và sử dụng mô hình LSTM. 


Input là ảnh thường được extract feature qua pre-trained model với dataset lớn như ImageNet 
và model phổ biến như VGG16, ResNet, quá trình được gọi là embedding và output là 1 vector. 


Ý tưởng sẽ là dùng embedding của ảnh và dùng các từ phía trước để dự đoán từ tiếp theo 
trong caption. 


Vi du: 


* Embedding vector + A -> girl 

* Embedding vector + A girl -> going 

* Embedding vector + A girl going -> into 

* Embedding vector + A girl going into -> a. 

* Embedding vector + A girl going into a -> wooden building . 
* Embedding vector + A girl going into a wooden -> building . 


18.4 
18.4.1 
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pre-trained 


model 


RNN/LSTM 


Để du đoán từ tiếp theo ta sẽ xây dung từ điển các từ xuất hiện trong training set (vi du 2000 từ) va 
bài toán trở thành bài toán phân loại từ, xem từ tiếp theo là từ nào, khá giống như bài phân loại ảnh. 


Từ tiếp theo 


Hình 18.3: Mô hình của bài toán 


Cóc bước chỉ tiết 
Image embedding với Inception 


Có lẽ cái tên GoogLeNet sé quen thuộc hơn va gặp nhiều hơn so với Inception, GoogLeNet là 
version 1 của Inception, hiện giờ mô hình phổ biến là Inception v3. 


Hình 18.4: Mô hình Googlenet, Going Deeper with Convolutions, Szegedy et al 


Thay vì trong mỗi Conv layer chi dùng | kernel size nhất định như 3*3, 5*5, thì giờ ở một layer có 
nhiều kernel size khác nhau, do đó mô hình có thể học được nhiều thuộc tính khác nhau của ảnh 
trong mỗi layer. 


Cụ thể hơn mọi người xem thêm ở đây. 


Ta sẽ sử dụng pre-trained model Inception v3 với dataset Imagenet. Do là pre-trained model 


18.4.2 


18.4.3 
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yêu cầu ảnh đầu vào là 229*229 nên ra sẽ resize ảnh về kích thước này. Sau khi qua pre-trained 
model ta sẽ lay được embedding vector của ảnh, kích thước 256*1 


Text preprocessing 


Ta xử ly text qua một số bước cơ bản. 

e Chuyển chữ hoa thành chữ thường, "Hello" -> "hello" 

e Bỏ các kí tự đặc biệt như " 

e Loại bó các chữ có số như hey199 
Sau đó ta sẽ thêm 2 từ "startseq" và "endseq" để biểu thị sự bắt đầu và kết thúc của caption. Ví dụ: 
"startseq a girl going into a wooden building endseq". "endseq" dùng khi test ảnh thì biết kết thúc 
của caption. 


Ta thấy có 8763 chữ khác nhau trong số 40000 caption. Tuy nhiên ta không quan tâm lắm những từ 
mà chỉ xuất hiện 1 vài lần, vi nó giống như là nhiễu vậy va không tốt cho việc hoc và dự đoán từ 
của model, nên ta chỉ giữ lại những từ mà xuất hiện trên 10 lần trong số tất cả các caption. Sau khi 
bỏ những từ xuất hiện ít hơn 10 lần ta còn 1651 từ. 


Tuy nhiên do độ dài các sequence khác nhau, ví du: "A", " A girl going", " A girl going into 
a wooden", nên ta cần padding thêm để các chuỗi có cùng độ dài bằng với độ dài của chuỗi dài nhất 
là 34. Do đó số tổng số từ (từ điển) ta có là 1651 + 1 (từ dùng để padding). 


Word embedding 

Để có thể đưa text vào mô hình deep learning, việc đầu tiên chúng ta cần làm là số hóa các từ đầu 
vào (embedding). Ở phần này chúng ta sẽ thảo luận về các mô hình nhúng từ (word embedding) và 
sự ra đời của mô hình word2vec rất nổi tiếng được google giới thiệu vào năm 2013. 


Các phương pháp trước day 

One hot encoding 

Phương pháp nay là phương pháp đơn giản nhất dé dua từ về dang số hóa vector với chiều bằng với 
kích thước bộ từ điển. Mỗi từ sẽ được biểu diễn bởi 1 vector mà giá trị tại vị trí của từ đó trong từ 
điển bằng 1 và giá trị tai các vị trí còn lại đều bằng 0. 

Ví dụ: Ta có 3 câu đầu vào: "Tôi đang đi học", "Mình đang bận nhé", "Tôi sẽ gọi lại sau". Xây 
dựng bộ từ điển: "Tôi, dang , di, hoc, Minh, bận, nhé, sé , goi, lai, sau". Ta có các biéu dién one hot 
encoding của từng từ nhu sau: 


Tôi: [1,0,0,0,0,0,0,0,0,0,0], 
đang: [0,1,0,0,0,0,0,0,0,0,0], 


Mình: [0,0,0,0,1,0,0,0,0,0,0], 
sau: [0,0,0,0,0,0,0,0,0,0, 1]. 


Cách biểu diễn nay rat đơn giản, tuy nhiên ta có thé nhận thấy ngay các han chế của phương 
pháp này. Trước hết, one hot encoding không thể hiện được thông tin về ngữ nghĩa của từ, ví dụ như 
khoảng cách(vector(Tôi) - vector(Mình)) = khoảng cách(vector(Tôi) - vector(đang)), trong khi rõ 
ràng từ "Tôi" và từ "Mình" trong ngữ cảnh như trên có ý nghĩa rất giống nhau còn từ "Tôi" và từ 
"đang" lai khác nhau hoàn toàn. Tiếp nữa, mỗi từ đều được biếu diễn bằng một vector có độ dài 
bằng kích thước bộ từ điển, như bộ từ điển của google gồm 13 triệu từ, thì mỗi one hot vector sẽ dai 
13 triệu chiều. Cách biểu diễn này tốn rất nhiều tài nguyên nhưng thông tin biéu diễn được lại rất 
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hạn hẹp. 
=> Cần một cách biểu diễn từ ít chiều hơn và mang nhiều thông tin hơn. 


Co-occurrence Matrix 

Năm 1957, nhà ngôn ngữ học J.R. Eirth phát biểu rằng: "Bạn sẽ biết nghĩa của một từ nhờ những từ 
đi kèm với nó.". Điều này cũng khá dễ hiểu. Ví dụ nhắc đến Việt Nam, người ta thường có các cụm 
từ quen thuộc như "Chiến tranh Việt Nam", "Cafe Việt Nam", "Việt Nam rừng vàng biển bạc", dựa 
vào những từ xung quanh ta có thể hiểu hoặc mường tượng ra được "Việt Nam" là gì, như thế nào. 
Co-occurrence Matrix được xây dựng dựa trên nhận xét trên, co-occurrence đảm bảo quan hệ ngữ 
nghĩa giữa các từ, dựa trên số lần xuất hiện của các cặp từ trong "context window". Một context 
window được xác dựa trên kích thước và hướng của nó, ví dụ của context window: 


John is not fat. John is thin. 


Context Window with size=1, direction=around 
Figure 1-Ví du vé Context Window 


Hinh 18.5: Ví du vé context window 


Co-ocurrence matrix là một ma trận vuông đối xứng, mỗi hàng, mỗi cột sẽ làm vector đại diện cho 
từ tương ứng. Từ ví dụ trên ta tiếp tục xây dựng co-ocurrence matrix: 


Figure 2-Vi dụ về Co-occurence Matrix 


Hinh 18.6: Vi du vé co-ocurrence matrix 


Trong đó, giá tri tại 6 [i, j] là số lần xuất hiện của từ i nằm trong context window của từ j. 
Cách biểu diễn trên mặc dù đã giữ được thông tin về ngữ nghĩa của một từ, tuy vẫn còn các hạn chế 
như sau: 

e Khi kích thước bộ từ điển tăng, chiều vector cũng tăng theo. 

e Luu trữ co-ocurrence matrix cần rất nhiều tài nguyên về bộ nhớ. 
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* Các mô hinh phân lớp bi gặp van đề với biểu diễn thưa (có rất nhiều giá tri O trong ma trận). 


Để làm giảm kích thước của co-ocurrence matrix người ta thường sử dụng phép SVD (Singular 
Value Decomposition) để giảm chiều ma trận. Ma trận thu được sau SVD có chiều nhỏ hơn, dễ lưu 
trữ hơn và ý nghĩa của từ cũng cô đọng hơn. Tuy nhiên, SVD có độ phức tạp tính toán cao, tăng 
nhanh cùng với chiều của ma trận (O(mn?) vói m lá chiéu cúa ma trán truóc SVD, n lá chiéu cúa 
ma trận sau SVD van < m ) , ngoài ra phương pháp này cũng gap khó khăn khi thêm các từ vung 
mới vào bộ từ điển. 


=> Cần phương pháp khác lưu trữ được nhiều thông tin và vector biểu diễn nhỏ. 


Word to vec (Word2vec) 


Với tư tưởng rằng ngữ cảnh va ý nghĩa của một từ có sự tương quan mật thiết đến nhau, năm 2013 
nhóm của Mikolov đề xuất một phương pháp mang tên Word2vec. 


Ý tưởng chính của Word2vec 


* Thay thế việc lưu thông tin số lần xuất hiện của các từ trong context window như co- 
occurrence matrix, word2vec hoc cách dự đoán các từ lận cận. 
e Tính toán nhanh hơn và có thể transfer learning khi thêm các từ mới vào bộ từ điển. 


Phương pháp: 
Với mỗi từ t trong bộ từ điển ta dự đoán các từ lân cận trong bán kính m của nó. 
Hàm mục tiêu nhằm tối ưu xác suất xuất hiện của các từ ngữ cánh (context word) đối với từ đang 


1 T m 
xét hiện tại: J(0) ss I] p(w;+ ;|w;; 0) 
t=1 ¡=-m,j40 


Có 2 kiến trúc khác nhau của word2vec, là CBoW và Skip-Gram: 


e Cbow: Cho trước ngữ cảnh ta dự đoán xác suất từ đích. Ví du: "I... you", với đầu vào là 2 từ 
"I" và "you" ta có gắng dự đoán từ còn thiếu, chẳng hạn "love". 

e Skip-Gram: Cho từ đích ta dự đoán xác suất các từ ngữ cảnh (nằm trong context window) của 
nó. Ví dụ: "... love ...", cho từ "love" ta dự đoán các từ là ngữ cảnh của nó, chẳng han "I", 


" " 


you". 


Trong bài báo giới thiệu word2vec, Mikolov và cộng sự có so sánh và cho thấy 2 mô hình này cho 
kết quả tương đối giống nhau. 


Chỉ tiết mô hình: 
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Hinh 18.8: M6 hinh Skip-Gram 


Do 2 kiến trúc khá giống nhau nên ta chỉ thảo luận về Skip-Gram. 
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Mô hình Skip-Gram sẽ input từ đích và dự đoán ra các từ ngữ cảnh. Thay vì input từ đích và output 
ra nhiều từ ngữ cảnh trong 1 mô hình, họ xây dựng model để input từ đích và output ra 1 từ ngữ cảnh. 


Mô hình là một mang neural network 2 lớp, với chi 1 hidden layer. Input là một từ trong từ 
điển đã được mã hóa thành dang one hot vector chiều V + 1 với V là kích thước từ điển. Hidden layer 
không sử dung activation function có N node, trong đó N chính là độ dài vector embedding của mỗi 
từ. Output layer có V node, sau đó softmax activation được sử dụng để chuyển về dạng xác suất. 
Categorical cross entropy loss function được học để dự đoán được từ ngữ cảnh với input là từ đích. 


Ví dụ của xây dựng tranning data: 


Training 
Samples 


Source Text 


brown |fox jumps over the lazy dog. == (the, quick) 
(the, brown) 


The jumps over the lazy dog. =» (quick, the) 
(quick, brown) 
(quick, fox) 

|fox jumps over the lazy dog. ==» (brown, the) 
(brown, quick) 
(brown, fox) 


(brown, jumps) 


The over|the lazy dog. = (fox, quick) 


(fox, brown) 
(fox, jumps) 
(fox, over) 


Hinh 18.9: Ví du của xây dung training data, window size = 2, tức là lấy 2 từ bên trái và 2 từ bên 
phải mỗi từ trung tâm làm từ ngữ cảnh (context word) 


Ví dụ của model Skip-gram: 
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Output Layer 
Softmax Classifier 


Hidden Layer Probability that the word at a 
Linear Neurons —— > randomly chosen, nearby 
Input Vector P position is “abandon” 
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Hinh 18.10: Ví du cua xáy dung Skip-gram 


Mot só két quá cüa Word2vec: 


man:woman :: king:? 


i 
+ king [ 0.30 0.70 ] l queen 
0.75 " king 
- man [0.20 0.20] 
0.5 
+ woman [0.600.30] — 
0.25 man 
queen [ 0.70 0.80] 
0 
0 0.25 0.5 0.75 1 


Hình 18.11: Vi tri các word vector trong không gian 


Ví du trên là ví dụ kinh điển của Word2vec cho thay các vector biểu diễn tốt quan hệ về mặt ngữ 
nghĩa của từ vựng như thế nào. 
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Hình 18.12: Mối quan hệ của đất nước và thủ đô tương ứng 


Pre-trained GLOVE Model được sử dụng cho quá trình word embedding. 
Mọi người vào link này để tải file glove.6B.zip 
Từng dong trong file sẽ lưu text và encoded vector khích thước 200*1 


18.4.4 Output 
Bài toán là dự đoán từ tiếp theo trong chuỗi ở input với ảnh hiện tại, nên output là từ nào trong số 1652 
từ trong từ điển mà ta có. Với bài toán phân loại thì softmax activation và categorical_crossentropy 
loss function được sử dụng. 


18.4.5 Model 
Layer (type) Dutput Shape Param # Connected to 
input 2 (InputLayer) (Nome, 2048) o 
embedding 1 (Embedding) ` Gene, 34, 200) 330400 ` input.3[O][O] 
dropout 1 (Dropout) (Nome, 2048) 0  input_200][0] ` 
dropout 2 (Dropout) (None, 34, 200 0 embedding 1[0][0] ———— 
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dense_1 (Dense) (None, 256) 524544 dropout_1[0] [0] 
lstm 1 (LSTM) (None, 256) 467968 dropout, 2[0] [0] 
add 1 (Add) (None, 256) 0 dense. 1 [0] [0] 


Lem 1[0] [0] 


Total params: 1,813,268 
Trainable params: 1,813,268 
Non-trainable params: 0 


18.5 Python code 
# -*- coding: utf-8 =*= 


# Commented out IPython magic to ensure Python compatibility. 
# Thêm thu viên 

import numpy as np 

from numpy import array 

import pandas as pd 

import matplotlib.pyplot as plt 
# /matplotlib inline 

import string 

import os 

from PIL import Image 

import glob 

from pickle import dump, load 
from time import time 


from keras.preprocessing import sequence 

from keras.models import Sequential 

from keras.layers import LSTM, Embedding, TimeDistributed, Dense, RepeatVector, \ 
Activation, Flatten, Reshape, concatenate, \ 
Dropout, BatchNormalization 

from keras.optimizers import Adam, RMSprop 

from keras.layers.wrappers import Bidirectional 

from keras.layers.merge import add 

from keras.applications.inception_v3 import InceptionV3 

from keras.preprocessing import image 

from keras.models import Model 

from keras import Input, layers 

from keras import optimizers 

from keras.applications.inception_v3 import preprocess_input 

from keras.preprocessing.text import Tokenizer 

from keras.preprocessing.sequence import pad_sequences 

from keras.utils import to_categorical 
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# Doc file các caption 
def load, doc(filename): 
# open the file as read only 
file = open(filename, 'r') 
# read all test 
text = file.read() 
# close the file 
file.close() 
return text 


filename = "Flickr8k/Flickr8k_text/Flickr8k.token.txt" 


doc = load_doc(filename) 
print (doc[:300]) 


# Luu caption dưới dang key value: 
#id_image : ['caption 1', ‘caption 2', 'caption 3',' caption 4', ‘caption 5'] 
def load descriptions (doc): 
mapping = dict() 
# process lines 
for line in doc.split('\n'): 
# split line by white space 
tokens = line.split() 
if len(line) < 2: 
continue 
# take the first token as the image id, the rest as the description 
image_id, image_desc = tokens[0], tokens[1:] 
# extract filename from image id 
image id = image id.split('.')[0] 
# convert description tokens back to string 
image_desc = ' '.join(image_desc) 
# create the list if needed 
if image_id not in mapping: 
mapping Limage_id] = list() 
# store description 
mapping [image_id] .append(image_desc) 
return mapping 


descriptions = load_descriptions (doc) 
print('Loaded: %d ' % len(descriptions) ) 


descriptions [ '1000268201_693b08cb0e ' ] 


# Preprocessing text 

def clean_descriptions (descriptions): 
# prepare translation table for removing punctuation 
table = str.maketrans('', '', string. punctuation) 
for key, desc_list in descriptions.items(): 
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for i in range(len(desc_list)): 
desc = desc_1ist[i] 
# tokenize 
desc = desc.split() 
# convert to lower case 


desc = [word.lower() for word in desc] 

# remove punctuation from each token 

desc = [w.translate(table) for w in desc] 

# remove hanging 's' and 'a' 

desc = [word for word in desc if len(word)>1] 

# remove tokens with numbers in them 

desc = [word for word in desc if word.isalpha()] 
# store as string 

desc list[i] = ' '.join(desc) 


# clean descriptions 
clean_descriptions (descriptions) 


descriptions [ ' 1000268201_693b08cb0e ' ] 


# Lưu description xuống file 
def save_descriptions(descriptions, filename): 
lines = list() 
for key, desc_list in descriptions.items(): 
for desc in desc_list: 
lines.append(key + ' ' + desc) 
data = '\n'.join(lines) 
file = open(filename, 'w') 
file.write (data) 
file.close() 


save_descriptions(descriptions, 'descriptions.txt') 


# Lay id ảnh tương ứng vói d& Liệu train, test, dev 
def load_set (filename): 
doc = load_doc(filename) 
dataset = list() 
# process line by line 
for line in doc.split('\n'): 
# skip empty lines 
if len(line) < 1: 
continue 
# get the image identifier 
identifier = line.split('.') [0] 
dataset .append(identifier) 
return set (dataset) 


# load training dataset (6K) 
filename = 'Flickr8k/Flickr8k_text/Flickr_8k.trainImages.txt' 
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train = load_set(filename) 
print('Dataset: ⁄d' % len(train)) 


# Folder chúa dú ảnh 

images = 'Flickr8k/Flicker8k_Dataset/' 
# Lay lay các ánh jpg trong thu muc 
img = glob.glob(images + '*.jpg') 


# File chúa các id ánh dé train 

train images file - '"Flickr8k/Flickr8k text/Flickr 8k.trainlmages.txt' 

# Read the train image names in a set 

train images = set(open(train images file, 'r').read().stripO .split(' n')) 


# Create a list of all the training images with their full path names 
train_img = [] 


for i in img: # img is list of full path names of all images 
if i[len(images):] in train_images: # Check if the image belongs to training set 
train_img.append(i) # Add it to the list of train images 


# File chúa các id ánh dé test 

test_images_file = 'Flickr8k/Flickr8k_text/Flickr_8k.testImages.txt' 

# Read the validation image names in a set Read the test image names in a set 
test images = set(open(test images file, 'r').readO .stripO .split('\n')) 


# Create a list of all the test images with their full path names 
test img - [] 


for i in img: # img is list of full path names of all images 
if i[len(images):] in test images: # Check if the image belongs to test set 
test img.append(i) # Add it to the list of test images 


# Thém 'startseq', 'endseq' cho chuói 
def load clean descriptions(filename, dataset): 
# load document 
doc = load_doc(filename) 
descriptions = dict() 
for line in doc.split('\n'): 
# split line by white space 
tokens = line.split() 
# split id from description 
image_id, image_desc = tokens[0], tokens[1:] 
# skip images not in the set 
if image_id in dataset: 
# create list 
if image_id not in descriptions: 
descriptions[image id] = list() 
# wrap description in tokens 
desc = 'startseq ' + ' '.join(image desc) + ' endseq' 
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# store 
descriptions [image_id] .append (desc) 
return descriptions 


# descriptions 
train_descriptions = load_clean_descriptions('descriptions.txt', train) 
print('Descriptions: train-/d' % len(train descriptions)) 


# Load ánh, resize vé khích thuóc mà Inception v3 yéu cau. 
def preprocess(image. path): 
# Convert all the images to size 2991299 as expected by the inception v3 model 
img = image.load_img(image_path, target_size=(299, 299)) 
# Convert PIL image to numpy array of S-dimensions 
x = image.img_to_array (img) 
# Add one more dimension 
x = np.expand_dims(x, axis=0) 
# preprocess the images using preprocess_input() from inception module 
X = preprocess_input (x) 
return x 


# Load the inception v3 model 
model = InceptionV3(weights-'imagenet') 


# Tao model mới, bỏ layer cuối từ inception v3 
model_new = Model(model.input, model.layers[-2] .output) 


# Image embedding thanh vector (2048, ) 
def encode (image) : 
image = preprocess(image) # preprocess the image 
fea_vec = model_new.predict(image) # Get the encoding vector for the image 
fea vec = np.reshape(fea vec, fea vec.shape[1]) # reshape from (1, 2048) to (2048, ) 
return fea vec 


# Got hàm encode vói các ánh trong training set 
start = time() 
encoding train = {} 
for img in train_img: 

encoding train[img[len(images):]] = encode (img) 
print("Time taken in seconds =", time()-start) 


# Luu image embedding lai 
with open("Flickr8k/Pickle/encoded_train_images.pkl", "wb") as encoded_pickle: 
dump(encoding train, encoded pickle) 


# Encode test image 
start = time() 
encoding test = {} 
for img in test_img: 
encoding test[img[len(images):]] = encode(img) 
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print("Time taken in seconds =", time()-start) 


# Save the bottleneck test features to disk 
with open("Flickr8k/Pickle/encoded test images.pkl", "wb") as encoded_pickle: 
dump(encoding test, encoded pickle) 


train features - load(open("Flickr8k/Pickle/encoded train images.pkl", "rb")) 
print('Photos: train-/d' % len(train_features) ) 


# Tạo list các training caption 
all_train_captions = [] 
for key, val in train_descriptions.items(): 
for cap in val: 
all_train_captions.append(cap) 
len(all train captions) 


# Chi lay các từ xuất hiện trên 10 Lần 
word_count_threshold = 10 
word_counts = {} 
nsents = 0 
for sent in all_train_captions: 

nsents += 1 

for w in sent.split(' '): 

word counts[w] = word counts.get(w, 0) + 1 


vocab = [w for w in word counts if word counts[w] >= word count threshold] 
print('preprocessed words %d -> %d' 4 (len(word counts), len(vocab))) 


{} 
de 


ixtoword 


wordtoix 


ix=1 

for w in vocab: 
wordtoix[w] = ix 
ixtoword[ix] = w 
ix += 1 


vocab_size = len(ixtoword) + 1 # Thêm 1 cho từ dùng dé padding 
vocab_size 


# convert a dictionary of clean descriptions to a list of descriptions 
def to lines(descriptions): 
all. desc = list() 
for key in descriptions.keys(): 
[all desc.append(d) for d in descriptions[key]] 
return all desc 


# calculate the length of the description with the most words 
def max length(descriptions): 
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lines = to_lines(descriptions) 
return max(len(d.split()) for d in lines) 


# determine the maximum sequence length 
max_length = max_length(train_descriptions) 
print('Description Length: ⁄d' ^ max length) 


# data generator cho viéc train theo từng batch oodel Pit generator O 
def data generator(descriptions, photos, wordtoix, max length, num photos, per batch): 
X1, X2, y = listO, listO, listO 
n=0 
# loop for ever over images 
while 1: 
for key, desc_list in descriptions.items(): 
n+=1 
# retrieve the photo feature 
photo = photos[key-*'.jpg'] 
for desc in desc_list: 
# encode the sequence 
seq = [wordtoix[word] for word in desc.split(' ') if word in wordtoix] 
# split one sequence into multiple X, y pairs 
for i in range(1, len(seq)): 
# split into input and output pair 
in seq, out seq = seq[:i], seq[i] 
# pad input sequence 
in seq = pad, sequences([in. seq], maxlen-max. length) [0] 
# encode output sequence 
out_seq = to categorical([out seq], num. classes-vocab. size) [0] 
# store 
X1. append (photo) 
X2. append (in seq) 
y.append (out_seq) 
# yield the batch data 
if n==num_photos_per_batch: 
yield [larray(X1), array(X2)], array(y)] 
X1, X2, y = listO, listO, listO 
n=0 


# Load Glove model 

glove_dir = '' 

embeddings_index = {} # empty dictionary 

f = open(os.path.join(glove_dir, 'glove.6B.200d.txt'), encoding="utf-8") 


for line in f: 
values = line.split() 
word = values [0] 
coefs = np.asarray(values[1:], dtype='float32') 
embeddings_index[word] = coefs 
f.close() 
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print('Found %s word vectors.' % len(embeddings_index) ) 
embeddings_index['the'] 
embedding dim = 200 


# Get 200-dim dense vector for each of the 10000 words in out vocabulary 
embedding matrix = np.zeros((vocab size, embedding dim)) 


for word, i in wordtoix.items(): 
#if 1 < max_words: 
embedding vector = embeddings index.get (word) 
if embedding vector is not None: 
# Words not found in the embedding index will be all zeros 
embedding matrix[i] = embedding vector 


embedding. matrix.shape 


# Tao model 

inputsi = Input(shape-(2048,)) 

fel = Dropout(0.5) (inputs1) 

fe2 = Dense(256, activation='relu') (fel) 

inputs2 = Input (shape=(max_length, )) 

sel = Embedding(vocab size, embedding dim, mask_zero=True) (inputs2) 
sei = Dropout(0.5) (sel) 

se3 = LSTM(256) (se2) 

decoderi = add([fe2, se3]) 

decoder2 = Dense(256, activation='relu') (đecoder1) 

outputs = Dense(vocab_size, activation='softmax') (decoder2) 
model = Model(inputs=[inputs1, inputs2], outputs=outputs) 


model . summary () 


Layer 2 dùng GLOVE Model nên set weight thang vá không can train 
model .layers [2] .set_weights([embedding_matrix]) 
model .layers[2].trainable = False 


model .compile(loss='categorical_crossentropy', optimizer-'adam') 


model .optimizer.lr = 0.0001 

epochs = 10 

number_pics_per_bath = 6 

steps = len(train_descriptions)//number_pics_per_bath 


for i in range(epochs): 
generator = data_generator(train_descriptions, train_features, wordtoix, max_length, 


model .fit_generator(generator, epochs-1, steps_per_epoch=steps, verbose=1) 


model .save_weights('./model_weights/model_30.h5') 
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images = 'Flickr8k/Flicker8k_Dataset/' 


with open("Flickr8k/Pickle/encoded test images.pkl", "rb") as encoded_pickle: 
encoding test - load(encoded pickle) 


# Vói mëi ánh mới khi test, ta sẽ bắt đầu chuỗi vdi 'startseq' rồi 
# sau đó cho uào model để dự đoán từ tiếp theo. 
# Ta thêm tù vita được dự đoán vào chuỗi và tiếp tuc cho đến khi gặp 'endseq' 
# Là kết thúc hoặc cho đến khi chuỗi dài 34 từ. 
def greedySearch(photo): 
in text = 'startseq' 
for i in range(max. length): 
sequence - [wordtoix[w] for w in in text.split() if w in wordtoix] 
sequence - pad sequences([sequence], maxlen-max length) 
yhat - model.predict([photo,sequence], verbose-0) 
yhat - np.argmax(yhat) 
word - ixtoword[yhat] 


in text += ' ' + word 
if word -- 'endseq': 
break 


final = in text.split(O 
final = final[1:-1] 
final = ' '.join(final) 
return final 


Z=5 

pic = list(encoding_test.keys()) [z] 

image = encoding_test [pic] .reshape((1, 2048) ) 
x=p1t.imread(images+pic) 

plt.imshow(x) 

plt.show() 

print (greedySearch (image) ) 


"man in black shirt is playing “construction worker in orange "two young girls are playing with 
guitar." safety vest is working on road." lego toy." 


Hinh 18.13: Các caption dự đoán từ model 
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Hình 18.2: Ảnh trong Flickr8k dataset 


19. Seq2seq va attention 


19.1 Giới thiệu 


Mô hình RNN ra đời để xử lý các dit liệu dạng chuỗi (sequence) như text, video. 


one to one one to many many to one many to many many to many 
WWII L HJH 006 
| Dr 1 ER E 


i 
E 8 ñũ1 000 000 


Bài toán RNN được phân làm một só dạng: 

e One to one: mẫu bài toán cho Neural Network (NN) va Convolutional Neural Network 
(CNN), 1 input va 1 output, ví dụ với bài toán phân loại anh MNIST input là ảnh va output 
ảnh đấy là số nao. 

e One to many: bài toán có 1 input nhưng nhiều output, ví dụ với bài toán caption cho ảnh, 
input là 1 ảnh nhưng output là nhiều chữ mô tả cho ảnh đấy, dưới dạng một câu. 

e Many to one: bài toán có nhiều input nhưng chỉ có 1 output, ví dụ bài toán phân loại hành 
động trong video, input là nhiều ảnh (frame) tách ra từ video, ouptut là hành động trong 
video. 

e Many to many: bài toán có nhiều input và nhiều output, ví dụ bài toán dich từ tiếng anh sang 
tiếng việt, input là 1 câu gồm nhiều chữ: "I love Vietnam" và output cũng là 1 câu gồm nhiều 
chữ "Tôi yêu Việt Nam". Để ý là độ dài sequence của input va output có thể khác nhau. 


19.2 
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M6 hinh sequence to sequence (seq2seq) sinh ra dé giái quyét bài toán many to many và rat thành 
cóng trong các bài toán: dich, tóm tát doan ván. Bài này minh sé cüng tim hiéu vé mó hinh seq2seq 
với bài toán dịch từ tiếng anh sang tiếng việt. 


Mô hinh seq2seq 


Input của mô hình seq2seq là một câu tiếng anh và output là câu dịch tiếng việt tương ứng, độ dài 
hai câu này có thể khác nhau. Ví dụ: input: I love teaching -> output: Tôi thích dạy học, input 1 câu 
3 từ, output 1 câu 4 từ. 


| love teaching seq2seq Toi thich day hoc 


Output 


Hinh 19.2: Seq2seq model 


Mô hình seq2seq gồm 2 thành phan là encoder va decoder. 


Tôi thích day học 


EM 


Output 


| love teaching E ` 


Input 


Hinh 19.3: Seq2seq model 


Encoder nhận input là câu tiếng anh va output ra context vector, con decoder nhận input là context 
vector va output ra câu tiếng việt tương ứng. Phan encoder sử dung mô hình RNN (nói là mô hình 
RNN nhưng có thể là các mô hình cải tiến như GRU, LSTM) và context vector được dùng là hidden 
states 6 node cuối cùng. Phan decoder cũng là một mô hình RNN với sọ chính là context vector rồi 
dần dần sinh ra các từ ở câu dịch. 


Phan decoder này giống với bài toán image captioning. Ở bài image captioning minh cũng cho ảnh 
qua pre-trained model để lay được embedding vector, sau đó cho embedding vector làm so của mô 
hình RNN rồi sinh ta caption tương ứng với ảnh. 


Bài trước mình đã biết model RNN chỉ nhận input dạng vector nên dữ liệu ảnh (từ) sẽ được 
encode về dạng vector trước khi cho vào model. 
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context 


| love teaching 


Hình 19.4: Mô hình encoder 


Các từ trong câu tiếng anh sẽ được embedding thành vector và cho vào mô hình RNN, hidden state 
ở node cuối cùng sẽ được dùng làm context vector. Về mặt lý thuyết thì context vector sẽ mang đủ 
thông tin của câu tiếng anh cần dich và sẽ được làm input cho decoder. 


Tôi thích dạy học <END> 


context 


<START> Tôi thích dạy học 


Hình 19.5: Mô hình decoder 


2 tag <START> và <END> được thêm vào câu output để chỉ từ bắt đầu và kết thúc của câu dich. 
Mô hình decoder nhận input là context vector. Ở node đầu tiên context vector và tag <START> sẽ 
output ra chữ đầu tiên trong câu dịch, rồi tiếp tục mô hình sinh chữ tiếp theo cho đến khi gặp tag 
<END> hoặc đến max_length của câu output thì dừng lại. 


Ví dụ code seq2seq cho bài toán dịch với mô hình LSTM mọi người tham khảo ở đây. 


Van đề: Mô hình seq2seq encode cả câu tiếng anh thành 1 context vector, rồi dùng context 
vector để sinh ra các từ trong câu dịch tưng ứng tiếng việt. Như vậy khi câu dài thì rất khó cho 
decoder chỉ dùng 1 context vector có thể sinh ra được câu output chuẩn. Thêm vào đó các mô hình 
RNN đều bị mất ít nhiều thông tin ở các node ở xa nên bản thân context vector cũng khó để học 
được thông tin ở các từ ở phần đầu của encoder. 


19.3 
19.3.1 


19.3.2 


260 Chuong 19. Seq2seq va attention 


=> Cần có cơ chế để lấy được thông tin các từ ở input cho mỗi từ cần dự đoán ở ouptut thay 
vì chỉ dựa vào context vector => Attention ra đời. 


Cơ ché attention 


Motivation 
Attention tiếng anh nghĩa là chú ý, hay tập trung. Khi dịch ở mỗi từ tiếng việt ta cần chú ý đến 1 vài 
từ tiếng anh ở input, hay nói cách khác là có 1 vài từ 6 input có ảnh hưởng lớn hơn để dich từ đấy. 


Tôi thích dạy học 


| 
love 


teaching 
Hinh 19.6: Dich tiếng anh sang tiếng việt, độ quan trọng các từ khi dich 


Ta thấy từ I có trọng số ảnh hướng lớn tới việc dịch từ tôi, hay từ teaching có ảnh hưởng nhiều tới 
việc dịch từ dạy và từ học. 


=> Do đó khi dịch mỗi từ ta cần chú ý đến các từ ở câu input tiếng anh và đánh trọng số khác nhau 
cho các từ để dịch chuẩn hơn. 


Cách hoat động 
Attention sẽ định nghĩa ra 3 thành phần query, key, value. 


Memory 


Values Output 


Keys 


Hình 19.7: Các thành phan attention 


Query (q) lấy thông tin từ từ tiếp theo cần dich (vi du từ day). Mỗi từ trong câu input tiếng anh sẽ 
cho ra 2 thành phần tương ứng là key và value, từ thứ i kí hiệu là k¿, vị. 


Mỗi bộ q, k; qua hàm o sé cho ra a; tương ứng, a; chính là độ ảnh hưởng của từ thứ i trong 
input lên từ can dự đoán. Sau đó các giá tri a; được normalize theo hàm softmax được bj. 
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values output 


Attention weights 


Attention 


keys query 


Hình 19.8: Các thành phan attention 


N 

Cuối cùng các giá trị v; được tinh tổng lại theo hệ số b;, output = ) bar, trong đó N là số từ trong 
i=l 

cau input. Việc normalize các giá tri a; giúp output cùng scale với các giá tri value. 


Decoder 


Attention layer 
addition 


II 


[ [ T | 


multiplication multiplication multiplication multiplication 
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encoder 
hidden state 


Encoder 


Hinh 19.9: Các buóc trong attention 


Ở phan encoder, thông thường mỗi từ ở input thi hidden state ở mỗi node được lấy làm cả giá tri 
key và value của từ đấy. Ó phan decoder, ở node 1 goi input là xı, output y; và hidden state s1; ở 
node 2 goi input là x2, output y2. Query là hidden state của node trước của node cần dự đoán từ tiếp 
theo (s¡). Các bước thực hiện: 

* Tinh score: a; = æ (q,ki) 

* Normalize score: bj 
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N 
* Tinh output: output, attention = » bi*vi 
i=l 
e Sau đó kết hợp hidden state ở node trước s¡, input node hiện tại x2 và giá tri output_attention 
để dự đoán từ tiếp theo y». 


Name Alignment score function 


Content-base score(s;, h;) = cosine|s;, h;] 


attention 

Additive(*) ^ score(s;, h;) = v4 tanh(W,[s;; h;]) 

Location- œ, ; = softmax(W,s,) 

Base Note: This simplifies the softmax alignment to only depend on the target 
position. 

General score(s;,h;) = s} Wah; 


where W, is a trainable weight matrix in the attention layer. 
Dot-Product score(s;,h;) = sj h; 
Scaled Dot- sih 
Product(^) Le 


score(s;,h;) = 
Note: very similar to the dot-product attention except for a scaling factor; 
where n is the dimension of the source hidden state. 


Hình 19.10: Một số hàm o hay được sử dung 


Nhận xét: Cơ chế attention không chỉ dùng context vector mà còn sử dụng hidden state ở từng từ 
trong input với trọng số ảnh hưởng tương ứng, nên việc dự đoán từ tiếp theo sẽ tốt hơn cũng như 
không sợ tình trạng từ ở xa bị mất thông tin ở context vector. 


Ngoài ra các mô hình deep learning hay bị nói là hộp đen (black box) vì mô hình không giải 
thích được, attention phần nào giúp visualize được kết quả dự đoán, ví dụ từ nào ở ouptut ảnh hưởng 
nhiều bởi từ nào trong input. Do đó model học được quan hệ giữa các từ trong input và output để 
đưa ra kết quả dự đoán. 


Lúc đầu cơ chế attention được dùng trong bài toán seq2seq, về sau do ý tưởng attention quá 
hay nên được dùng trong rất nhiều bài toán khác, ví dụ như trong CNN người ta dùng cơ chế 
attention để xem pixel nào quan trọng đến việc dự đoán, feature map nào quan trọng hơn trong 
CNN layer,.. Giống như resnet, attention cũng là 1 đột phá trong deep learning. Mọi người để ý thì 
các mô hình mới hiện tại đều sử dụng cơ chế attention. 
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20. Giới thiệu về GAN 


Mô hình GAN được giới thiệu bởi lan J. Goodfellow vào năm 2014 và đã đạt được rất nhiều thành 
công lớn trong Deep Learning nói riêng và AI nói chung. Yann LeCun, VP and Chief AI Scientist, 
Facebook, từng mô tả về GAN: "The most interesting idea in the last 10 years in Machine Learning". 
Để mọi người thay được các ứng dung của GAN, phan dưới tôi sé trình bay một vai ứng dụng điển 
hình của GAN. 


Ứng dụng của GAN 
Generate Photographs of Human Faces 


Vi dụ về ảnh mặt người do GAN sinh ra từ 2014 đến 2017. Mọi người có thé thấy chat lượng ảnh 
sinh ra tốt lên đáng kể theo thời gian. 


2014 2015 2016 2017 
Hình 20.1: Ảnh mặt GAN sinh ra qua các năm ,Malicious Use of Artificial Intelligence: Forecasting, 


Prevention, and Mitigation, 2018. 


Hình dưới là ảnh sinh ra bởi GAN năm 2018, phải để ý rất chi tiết thi mới có thể phân biệt được ảnh 
mặt đấy là sinh ra hay ảnh thật. 
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Hình 20.2: StyleGAN 


20.1.2 Image editing 
Chắc mọi người van nhớ tới FaceApp làm mưa làm gió trong thời gian vừa qua. Nó là một ứng dụng 
của GAN để sửa các thuộc tính của khuôn mặt như màu tóc, da, giới tính, cảm xúc hay độ tuổi. 


Input Blond hair Gender Aged Pale skin Input Angry Happy Fearful 
"FE ' TEN —=rr [= » 


H 


Hinh 20.3: StarGAN 


Face Aging 


19-29 30-39 40-49 50-59 


Hinh 20.4: Age-cGAN 
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20.1.3 Generate Anime characters 
Việc thuê các hoa sĩ thiết kế các nhân vật anime rat đắt đỏ thé nên GAN được sử dụng dé tự động 
sinh ra các nhân vật anime. 


Figure 7: Generated samples 


Hình 20.5: Ảnh anime sinh ra, nguồn 


20.1.4 Generate Realistic Photographs 


Năm 2018, Andrew Brock cho ra paper bigGAN với có kha năng sinh ra các ảnh tự nhiên rất khó 
phân biệt với ảnh chụp thường. 


Hình 20.6: Example of Realistic Synthetic Photographs Generated with BigGAN Taken from Large 
Scale GAN Training for High Fidelity Natural Image Synthesis, 2018. 


20.1.5 


20.1.6 
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Image-to-Image Translation 


Ví du dién hinh cúa mó hinh image to image translation lá Pix2pix. Input la 1 ánh va output la 1 
ảnh tương ứng, ví du input là ảnh không mau, output là ảnh mau. Mọi người có thể vào đây thử, 
input là bản phác (draft) con mèo, output là ảnh con mèo hay input là các khối block, output là ảnh 
ngôi nhà. 


Input Output 


Hình 20.7: Vi dụ anh draft sang anh mau, taken from Image-to-Image Translation with Conditional 
Adversarial Networks, 2016. 


Unsupervised Image-to-image translation 


Bài toán trên (Image-to-image translation) là supervised tức là ta có các dữ liệu thành cap (input, 
output) như bản phác thảo của cái cáp và ánh màu của nó. Tuy nhiên khi muốn chuyển dif liệu từ 
domain này sang domain khác (từ ngựa thường sang ngựa van) thì ta không có sẵn các cặp dữ liệu 
để train, đó gọi là bài toán unsupervised. 
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Hinh 20.8: CycleGAN 


20.1.7 Super-resolution 
GAN có thể dùng dé tăng chát lượng của anh từ độ phán giải tháp lên độ phân giải cao với kết quả 


rất tót. 


bicubic SRResNet SRGAN 
(21.59dB/0.6423) (23.53dB/0.7832) (21.15dB/0.6868) 


3 
Wi M 


Figure 2: From left to right: bicubic interpolation, deep residual network optimized for MSE, deep residual generative 
adversarial network optimized for a loss more sensitive to human perception, original HR image. Corresponding PSNR and 
SSIM are shown in brackets. [4x upscaling] 


Hinh 20.9: SRGAN 


20.1.8 Text to image 


GAN có thé hoc sinh ra ánh vói input là mót cáu. 
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Hình 20.10: StackGAN 


20.1.9 Generate new human pose 
Với ảnh người đứng va dáng đứng mới, GAN có thể sinh ra người với dáng đứng mới. 


Hình 20.11: Pose Guided Person Image Generation 


20.1.10 Music generation 
Ngoài các ứng dụng với anh, GAN có thé áp dung dé sinh ra những ban nhac. 
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(a) MidiNet model 1 
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(c) MidiNet model 3 


Figure 3. Example result of the melodies (of 8 bars) generated by different implementations of MidiNet. 


Hình 20.12: MidiNet 


20.2 GAN lagi? 


GAN thuộc nhóm generative model. Generative là tính từ nghĩa là kha nang sinh ra, model nghĩa là 
mô hình. Vậy hiểu đơn giản generative model nghĩa là mô hinh có khả năng sinh ra dữ liệu. Hay nói 
cách khác, GAN là mô hình có khả năng sinh ra dữ liệu mới. Ví dụ như những ảnh mặt người ở trên 


20.3 


20.3 Cốu trac mang GAN 27] 


bạn thấy là do GAN sinh ra, không phải mặt người thật. Dữ liệu sinh ra nhìn như thật nhưng không 
phải thật. 


GAN viết tắt cho Generative Adversarial Networks. Generative giống như ở trên, Network có 
nghĩa là mạng (mô hình), còn Adversarial là đối nghịch. Tên gọi như vậy là do GAN được cấu thành 
từ 2 mạng gọi là Generator và Discriminator, luôn đối nghịch đầu với nhau trong quá trình train 
mạng GAN. Chỉ tiết sẽ được trình bày ở phần dưới. 


Tóm lại GAN là mang để sinh dữ liệu mới giống với dữ liệu trong dataset có sẵn và có 2 mạng trong 
GAN là Generator và Discriminator. 


Câu trúc mang GAN 

GAN cấu tạo gồm 2 mang là Generator va Discriminator. Trong khi Generator sinh ra các dif liệu 
giống như thật thi Discriminator có gắng phân biệt đâu là dữ liệu được sinh ra từ Generator va đâu 
là dữ liệu thật có. 


Generator Discriminator 


x . Fake Money 
Counterfeiter prints fake money. It is labelled as fake for . 
police training. Sometimes, the counterfeiter attempts to The police are trained to spot real from fake money. 
fool the police by labelling the fake money as real. Sometimes, the police give feedback to the counterfeiter 


why the money is fake. 


Hinh 20.13: Minh hoa các mang trong GAN, nguón 


Ví dụ bài toán giờ là dùng GAN dé generate ra tiền giá mà có thể dùng để chi tiêu được. Dữ liệu có 
là tiền thật. 


Generator giống như người làm tiền giả còn Discriminator giống nhu cảnh sát. Người làm tiền giả 
sé có gắng làm ra tiền giả mà cảnh sát cũng không phân biệt được. Còn cảnh sát sẽ phân biệt đâu là 
tiền thật và đâu là tiền giả. Mục tiêu cuối cùng là người làm tiền giả sẽ làm ra tiền mà cảnh sát cũng 
không phân biệt được đâu là thật và đâu là giả và thế là mang tiền đi tiêu được. 


Trong quá trình train GAN thì cảnh sát có 2 việc: 1 là học cách phân biệt tiền nào là thật, 
tiền nào là giả, 2 là nói cho thằng làm tiền giả biết là tiền nó làm ra vẫn chưa qua mắt được và cần 
cải thiện hơn. Dần dần thì thằng làm tiền giả sẽ làm tiền giống tiền thật hơn và cảnh sát cũng thành 
thạo việc phân biệt tiền giả và tiền thật. Và mong đợi là tiền giả từ GAN sẽ đánh lừa được cảnh sát. 


20.3.1 
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Y tưởng của GAN bắt nguồn từ zero-sum non-cooperative game, hiểu đơn giản như trò chơi 
đối kháng 2 người (cờ vua, cờ tướng), nều một người thắng thì người còn lại sẽ thua. Ở mỗi lượt 
thì cả 2 đều muốn maximize cơ hội thắng của tôi và minimize cơ hội thắng của đối phương. 
Discriminator và Generator trong mang GAN giống như 2 đối thủ trong trò chơi. Trong lý thuyết trò 
chơi thì GAN model converge khi cả Generator và Discriminator đạt tới trạng thái Nash equilibrium, 
tức là 2 người chơi đạt trạng thái cân bằng và đi tiếp các bước không làm tăng cơ hội thắng. "A 
strategy profile is a Nash equilibrium if no player can do better by unilaterally changing his or her 
strategy", nguồn. 


Bai toán: Dùng mang GAN sinh ra các chữ số viết tay giống với dữ liệu trong MNIST dataset. 


Generator 


Generator là mang sinh ra dữ liệu, tức là sinh ra các chữ số giống với dữ liệu trong MNIST dataset. 
Generator có input là noise (random vector) là output là chữ số. 


Tại sao input là noise? Vì các chữ số khi viết ra không hoàn toàn giống nhau. Ví dụ số 0 ở 
hàng đầu tiên có rất nhiều biến dạng nhưng van là số 0. Thế nên input của Generator là noise để khi 
ta thay đổi noise ngẫu nhiên thi Generator có thể sinh ra một biến dạng khác của chữ viết tay. Noise 
cho Generator thường được sinh ra từ normal distribution hoặc uniform distribution. 
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Hình 20.14: MNIST dataset, nguồn 


Input của Generator là noise vector 100 chiéu. 


Sau đấy mô hình neural network được áp dung với số node trong hidden layer lần lượt là 256, 512, 
1024. 
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FC3: 1024 


FC4: 784 


FC2: 512 
FC1: 256 


z: 100 


Input 


Output 


Generator 


Hinh 20.15: M6 hinh generator 


Output layer có số chiều là 784, vi output đầu ra là ảnh giống với dữ liệu MNIST, ảnh xám kích 
thước 28*28 (784 pixel). 


Output là vector kích thước 784*1 sé được reshape về 28*28 đúng định dang của dữ liệu MNIST. 


data data. reshape (2, 3) data. reshape (3, 2) 
1 
1 2 1 2 
2 2 
3 
kkal 
3 
———— 
2 


Hình 20.16: Ví dụ về reshape, nguồn 


# Mô hành Generator 

g = Sequential () 

g.add(Dense(256, input_dim=z_dim, activation=LeakyReLU(alpha=0.2))) 

g.add(Dense(512, activation=LeakyReLU(alpha=0.2))) 

g.add(Dense(1024, activation=LeakyReLU(alpha=0.2))) 

# Vi dit Liệu ánh MNIST đã chuẩn hóa vé [0, 1] nên hầm G khi sinh ánh ra cũng cần sinh ra 
g.add(Dense(784, activation='sigmoid')) 


20.3.2 


274 Chương 20. Giới thiệu về GAN 


g.compile(loss='binary_crossentropy', optimizer=adam, metrics=['accuracy']) 


Discriminator 

Discriminator là mạng dé phân biệt xem dữ liệu là that (dif liệu từ dataset) hay giả (dữ liệu sinh ra 
từ Generator). Trong bài toán này thì discriminator dùng để phân biệt chữ số từ bộ MNIST và dữ 
liệu sinh ra từ Generator. Discriminator có input là ảnh biểu diễn bằng 784 chiều, output là ảnh thật 
hay ảnh giả. 


Đây là bài toán binary classification, giống với logistic regression. 


FC1: 1024 


FC2: 512 


FC3: 256 


Output 


Input 


Discriminator 


Hình 20.17: Ví dụ về reshape, nguồn 


Input của Discriminator là ảnh kích thước 784 chiều. 


Sau đấy mô hình neural network được áp dụng với số node trong hidden layer lần lượt là 1024, 512, 
256. Mô hình đối xứng lại với Generator. 


Output là 1 node thể hiện xác suất anh input là ảnh thật, ham sigmoid được sử dụng. 


X Mô hinh Discriminator 
d = Sequential (O) 


20.3.3 
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.add(Dense(1024, input_dim=784, activation=LeakyReLU(alpha=0.2))) 
.add (Dropout (0.3) ) 

.add(Dense(512, activation-LeakyReLU(alpha-0.2))) 
.add(Dropout(0.3)) 

.add(Dense(256, activation-LeakyReLU(alpha-0.2))) 

.add (Dropout (0. 3)) 

Hàm sigmoid cho bai toán binary classification 

.add(Dense(1, activation='sigmoid')) 


ay, O. D DO E a 


Loss function 
Kí hiệu z là noise đầu vào của generator, x là dữ liệu that từ bộ dataset. 
Kí hiệu mang Generator là G, mang Discriminator là D. G(z) là ảnh được sinh ta từ Genera- 


tor. D(x) là giá trị dự đoán của Discriminator xem anh x là thật hay không, D(G(z)) là giá tri dự 
đoán xem ảnh sinh ra từ Generator là ảnh thật hay không. 


Vì ta có 2 mạng Generator và Discriminator với mục tiêu khác nhau, nên cần thiết kế 2 loss 
function cho mỗi mạng. 


Discriminator thì cố gắng phân biệt đâu là ảnh thật và đâu là ảnh giả. Vì là bài toán binary 
classification nên loss function dùng giống với binary cross-entropy loss của bài sigmoid. 


d.compile(loss='binary_crossentropy', optimizer=adam, metrics=['accuracy']) 


Giá tri output của model qua ham sigmoid nên sẽ trong (0, 1) nên Discriminator sẽ được train để 
input ảnh ở dataset thì output gần 1, còn input là ảnh sinh ra từ Generator thi output gần 0, hay D(x) 
-> 1 còn D(G(z)) -> 0. 


Random Noise 


Real Data 


Hình 20.18: Nguồn 


Hay nói cách khác là loss function muốn maximize D(x) và minimize D(G(z)). Ta có minimize 
D(G(z)) tương đương với maximize (1 - D(G(z))). Do đó loss function của Discriminator trong 
paper gốc được viết lại thành. 
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max V(D) = Es pas (2) [log D()] + Eznp, (2) [log(1 = D(G(z)))] 


recognize real images better recognize generated images better 


Hinh 20.19: Loss Discriminator, nguón. 


E là ki vong, hiểu đơn giản là lấy trung binh của tat cả dữ liệu, hay maximize D(x) với x là dit liệu 
trong traning set. 


Generator sẽ học để đánh lừa Discriminator rằng số nó sinh ra là số thật, hay D(G(z)) -> 1. 
Hay loss function muốn maximize D(G(z)), tương đương với minimize (1 - D(G(2))) 


minV(G) = Eznp,(z)[log(1 — D(G(z)))] 


Optimize G that can fool the discriminator the most. 


Hình 20.20: Loss Generator, nguồn. 


Do đó ta có thể viết gộp lai loss của mô hình GAN: 
min max V(D, G) = E pan (2) [log D()) + Ez~s„(z)[log(1 = D(G()))]. 


Hinh 20.21: Loss GAN, nguón. 


Từ hàm loss của GAN có thé thấy là việc train Generator va Discriminator đối nghịch nhau, trong 
khi D có gáng maximize loss V thi G có gáng minimize V. Quá trinh train GAN két thác khi model 
GAN dat dén trang thái cán báng cüa 2 models, goi là Nash equilibrium. 


20.4 Code 


Khi train Discriminator, ta lay BATCH. SIZE (128) ảnh that từ dataset với label là 1 (thuc ra đã thử 
và dé 0.9 thi két qua tót hon). Thém vào dó là 128 noise vector (sinh ra tit normal distribution) sau 
dó cho noise vector qua Generator dé tao anh fake, anh fake này có label là 0. Sau dó 128 anh that + 
128 anh fake được dùng dé train Discriminator. 


# Lay ngẫu nhién các ánh từ MNIST dataset (ánh thật) 

image_batch = X_train[np.random.randint(0, X_train.shape[0], size=BATCH_SIZE)] 
# Sinh ra noise ngẫu nhién 

noise = np.random.normal(0, 1, size-(BATCH SIZE, z dim)) 


# Ding Generator sinh ra ánh tu noise 

generated images = g.predict (noise) 

X 7 np.concatenate((image batch, generated images)) 

# Tao label 

y = np.zeros(2*BATCH, SIZE) 

yL:BATCH SIZE] = 0.9 # gán label bằng 1 cho những ánh từ MNIST dataset và O cho ánh sinh 
# Train discriminator 

d.trainable = True 

d_loss = d.train_on_batch(X, y) 


20.4 Code 2/7 


Khi train Generator ta cũng sinh ra 128 anh fake từ noise vector, nhưng ta gan label cho anh giả là 1 
vì ta muốn nó hoc để đánh lừa được Discriminator. Khi train Generator thì ta không cập nhật các hệ 
số của Discriminator, vì mỗi mạng có mục tiêu riêng. 


# Train generator 

noise = np.random.normal(0, 1, size=(BATCH_SIZE, z_dim)) 

# Khi train Generator gán label bằng 1 cho những ánh sinh ra bởi Generator -> có gáng lừa 
y2 = np.ones(BATCH_SIZE) 

# Khi train Generator thi không cập nhật hệ số của Discriminator. 

d.trainable = False 

g_loss = gan.train on batch(noise, y2) 


Code GAN sinh ra các chữ số giống với dữ liệu trong bộ MNIST dataset 


# Thêm thu vuién 

from keras.datasets import mnist 

from keras.utils import np_utils 

from keras.models import Sequential, Model 

from keras.layers import Input, Dense, Dropout, Activation, Flatten 
from keras.layers.advanced_activations import LeakyReLU 
from keras.optimizers import Adam, RMSprop 

import numpy as np 

import matplotlib.pyplot as plt 

import random 

from tqdm import tqdm_notebook 


# Lấu dü Liệu từ bộ MNIST 
(X train, Y train), (X test, Y test) = mnist.load_data() 


# Tiền zů ly dá Liệu, reshape tù ánh xám 28*28 thành vector 784 chiều và dua di Liệu từ s 
X_train = X_train.reshape(60000, 784) 

X_test = X_test.reshape(10000, 784) 

X_train = X_train.astype('float32')/255 

X_test = X_test.astype('float32')/255 


# SỐ chiều noise vector 
z_dim = 100 


# Optimizer 
adam = Adam(lr=0.0002, beta_1=0.5) 


M6 hinh Generator 

= Sequential () 

.add(Dense(256, input dim-z dim, activation-LeakyReLU(alpha-0.2))) 

.add(Dense(512, activation-LeakyReLU(alpha-0.2))) 

.add(Dense(1024, activation=LeakyReLU(alpha=0.2))) 

Vi dd Liệu ánh MNIST dá chuẩn hóa vé [0, 1] nên hàm G khi sinh ánh ra cúng cần sinh ra 
.add(Dense(784, activation='sigmoid')) 

.compile(loss='binary_crossentropy', optimizer=adam, metrics=['accuracy']) 
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Mô hành Discriminator 
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= Sequential () 

.add(Dense(1024, input_dim=784, activation=LeakyReLU(alpha=0.2))) 
.add (Dropout (0.3) ) 

.add(Dense(512, activation-LeakyReLU(alpha-0.2))) 
.add(Dropout(0.3)) 

.add(Dense(256, activation-LeakyReLU(alpha-0.2))) 

.add (Dropout (0. 3)) 

Ham sigmoid cho bài toán binary classification 

.add(Dense(1, activation='sigmoid')) 


D Oz D DO E D D aA 


.compile(loss='binary_crossentropy', optimizer=adam, metrics=['accuracy']) 


d.trainable = False 

inputs = Input(shape=(z_dim, )) 
hidden = g(inputs) 

output = d(hidden) 

gan = Model(inputs, output) 


gan.compile(loss='binary_crossentropy', optimizer=adam, metrics=['accuracy']) 


# Ham vé loss function 

def plot_loss(losses): 
d loss = [v[O] for v in losses["D"]] 
g_loss = [v[O] for v in losses["G"]] 


plt.figure(figsize-(10,8)) 
plt.plot(d loss, label-"Discriminator loss") 
plt.plot(g loss, label="Generator loss") 


plt.xlabel('Epochs') 
plt.ylabel('Loss') 
plt.1egend() 
plt.show() 


# Ham vé sample tu Generator 

def plot_generated(n_ex=10, dim=(1, 10), figsize=(12, 2)): 
noise = np.random.normal(0, 1, size-(n ex, z dim)) 
generated images = g.predict (noise) 
generated images - generated images.reshape(n ex, 28, 28) 


plt.figure(figsize-figsize) 

for i in range(generated_images. shape L0] ) : 
plt.subplot(dim[0], dim[1], i+1) 
plt.imshow(generated images[i], interpolation-'nearest', cmap='gray_r') 
plt.axis('off') 

plt.tight layout () 

plt.show() 


# Luu giá tri loss va accuracy của Discriminator vá Generator 
losses = {"D":[], "G":[]} 
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def train(epochs-1, plt frq-1, BATCH SIZE-1298): 
# Tính số làn chay trong moi epoch 
batchCount = int(X_train.shape[0] / BATCH SIZE) 
print('Epochs:', epochs) 
print('Batch size:', BATCH SIZE) 
print('Batches per epoch:', batchCount) 


for e in tqdm notebook(range(1, epochs+1)): 

if e == 1 or e/plt frq == 0: 
print('-'*15, 'Epoch %d' % e, '-'*15) 

for _ in range(batchCount) : 
# Lay ngẫu nhiên các ánh từ MNIST dataset (ảnh thật) 
image_batch = X_train[np.random.randint(0, X_train.shapeL0], size-BATCH SIZE) 
# Sinh ra noise ngẫu nhién 
noise = np.random.normal(0, 1, size=(BATCH_SIZE, z_dim)) 


# Ding Generator sinh ra ánh tù noise 

generated images = g.predict (noise) 

X = np.concatenate((image batch, generated_images) ) 

# Tao label 

y = np.zeros(2*BATCH_SIZE) 

y[:BATCH_SIZE] = 0.9 # gán label bằng 0.9 cho những ánh từ MNIST dataset vá 


# Train discriminator 
d.trainable = True 
d_loss = d.train_on_batch(X, y) 


# Train generator 

noise = np.random.normal(0, 1, size=(BATCH_SIZE, z_dim)) 

# Khi train Generator gán label bằng 1 cho những ánh sinh ra bói Generator -> 
y2 = np.ones(BATCH_SIZE) 

# Khi train Generator thi không cập nhật hé số của Discriminator. 

d.trainable = False 

g_loss = gan.train_on_batch(noise, y2) 


# Lưu loss function 
losses["D"] .append(d_loss) 
losses["G"] .append(g_loss) 


# Vẽ các số được sinh ra để kiểm tra kết quả 
if e == 1 or efplt_frq == 0: 
plot_generated() 
plot_loss (losses) 


# Train GAN model 
train(epochs=200, plt_frq=20, BATCH_SIZE=128) 


20.5 Bồi tập 


1. Tìm các mạng GAN có thể sinh ra ảnh mặt người tốt nhất hiện nay. 
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2. Dùng mang GAN sinh ra các ảnh trong bộ dữ liệu cifar-10 
3. Tim hiểu vé variational autoencoder (VAE), một mô hinh sinh khác giống như GAN. 


21.1 


21.1.1 


21. Deep Convolutional GAN (DCGAN) 


Bài trước tôi đã giới thiệu về GAN, cấu trúc mang GAN và hướng dẫn dùng GAN để sinh các 
số trong bộ dữ liệu MNIST. Tuy nhiên mô hình của Generator và Discriminator đều dùng Neural 
Network. Trong khi ở bài CNN tôi đã biết CNN xử lý dữ liệu ảnh tốt hơn và hiệu quả hơn rất nhiều 
so với Neural Network truyền thống. Vậy nên bài này tôi sẽ hướng dẫn áp dụng CNN vào mô hình 
GAN bài trước, mô hình đấy gọi là Deep Convolutional GAN (DCGAN). 


Bài toán: Dùng mang GAN sinh ra các ảnh giống với dữ liệu trong CIFAR-10 dataset. 


CIFAR-10 dataset bao gồm 60000 ảnh màu kích thước 32x32 thuộc 10 thể loại khác nhau. Mỗi thể 
loại có 6000 ảnh. Ví dụ ảnh cifar10 ở hình 21.1 


Cấu trúc mang 


Nhắc lại bài trước 1 chút thì GAN gồm 2 mang là generator và discriminator. Trong khi discriminator 
được train để phân biệt ảnh thật (trong dataset) và ảnh fake (do generator sinh ra), thì generator 
được train để đánh lừa discriminator. Ở bài trước thì cả generator và discriminator đều được xây 
bằng mạng neural network thông thường với các fully connected layer, bài này thì generator và 
discriminator được xây dựng bằng mô hình CNN với 2 layers chính là convolutional layer và 
transposed convolutional layer. 


Generator 


Mang Generator nhằm mục đích sinh anh fake, input là noise vector kích thước 128 va output và 
anh fake cùng kích thước ảnh that (32 * 32 *3) 
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Hình 21.1: Dữ liệu cifar-10 
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Hình 21.2: Mô hình generator của DCGAN 


Các layer trong mang 

e Dense (fully-connected) layer: 128*1 -> 2048*1 

e Flatten chuyển từ vector vé dang tensor 3d, 2048*1 -> 2*2*512 

* Transposed convolution stride=2, kernel=256, 2*2*512 -> 4*4*256 

* Transposed convolution stride=2, kernel=128, 4*4*256 -> 8*8*128 

* Transposed convolution stride=2, kernel=64, 8*8*128 -> 16*16*64 

* Transposed convolution stride=2, kernel=3, 16*16*64 -> 32*32*3 

Đầu tiên thi input noise (128) được dùng full-connected layer chuyển thành 2048 ( = 2*2*512). 
Số 2048 được chon dé reshape về dang tensor 3d (2*2*512). Sau đó transposed convolution với 
stride = 2 được dùng dé tăng kích thước tensor lên dần 4*4 -> 8*8 -> 16*16 -> 32*32. Cho tới khi 
kích thước tensor 32*32 (bằng đúng width, height của ảnh trong CIFAR-10 dataset) thì ta dùng 3 
kernel để ra đúng shape của ảnh. 


Mọi người để ý thấy là khi width, height tăng thì depth sẽ giảm, cũng giống như trong mạng 
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CNN bình thường width, height giảm thi depth sé tang. 


Transposed convolution 

Transposed convolution hay deconvolution có thể coi là phép toán ngược của convolution. Nếu như 
convolution với stride > 1 giúp làm giảm kích thước của anh thi transposed convolution với stride > 
1 sẽ làm tăng kích thước ảnh. Ví du stride = 2 và padding = SAME’ sẽ giúp gấp đôi width, height 
kích thước của ảnh. 


Transposed convolution có 2 kiểu định nghĩa Kiểu 1 Kiểu 1 được định nghĩa đơn giản hơn 
lay từ sách Dive into deep learning. Y tưởng đơn giản là transposed convolution là phép tính ngược 
của convolution. 
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Hinh 21.3: Convolution s=1, p=0 


Nếu như ở phép tinh convolution thì 1 vùng kích thước 2*2 được nhân element-wise với kernel và 
tính tổng viết ra ở output thì ở phép tính transposed convolution mỗi phần tử ở input sẽ được nhân 
với kernel và ma trận kết quả cùng kích thước với kernel được viết vào output. Nếu các phần tử ở 
output viết đè lên nhau thì ta sẽ cộng dồn vào. 
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Hình 21.4: Transposed convolution với s=1, p=0 


Stride trong transposed convolution được định nghĩa là số bước nhảy khi viết kết quả ra ma trận 
output 
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Hinh 21.5: Transposed convolution với s=2, p=0 


Với padding thì ta tính toán bình thường như với p=0 sau đó kết quả ta sẽ bỏ p hang và cột ở 4 cạnh 
(trên, dưới, trái, phải) 


‘Trans poss Can velud on s=2,p-4 


Hinh 21.6: Transposed convolution s=2, p=1 
Kiểu 2 Kiểu định nghĩa thứ 2 thì phức tap hơn nhưng lại có vẻ chuẩn và hay gặp hơn, nguồn. 


Ý nghĩa của stride va padding ở đây là khi ta thực hiện phép tính convolution trên output sẽ 
được kích thước giống input. 


Transposed Convolution 


4. The kernel always jumps 1 
pixel when being sided across the Output 
image 


Hình 21.7: Cac bước thực hiện transposed convolution 


Mọi người để ý là bước tính z để chèn 0 vào giữa hay tính lại padding p` để thêm vào mục đích cuối 
cùng chỉ là để convolution trên output với s, p sẽ được input. 


21.1.2 


21.2 
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z =s - 1 = 0 hàng / cột chèn vào giữa, p = k - p- 1 = 2 padding input. Màu xanh dương là 
input, xanh lá cây dam là output. 


Ta thấy phép tinh convolution với input 4*4 , kernel size 3*3 , s = 1, p = 0 thi output kích 


thước 2*2. Ngược lai phép tinh transposed convolution : input là 2*2 , kernel size là 3*3 , s = 1, p = 
0 thi output sé có kích thước 4*4. 


z=s-1=1 hàng / cột chèn vào giữa, p = k - p - 1 = 1 padding input. Màu xanh dương là 
input, xanh lá cây đậm là output. Nếu mọi người check lại thì phép tính convolution với input 5*5, 


kernel size 3*3, s = 2, p = 1 sẽ được output kích thước 3*3. 


Discriminator 


Mang Discriminator nham muc dich phân biệt anh thật từ dataset và anh fake do Generator sinh ra, 
input là anh kích thước (32 * 32 *3), output là anh thật hay fake (binary classification) 
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Hình 21.8: Mô hình discriminator của DCGAN 


Mô hình discriminator đối xứng lại với mô hình generator. Ảnh input được đi qua convolution với 
stride = 2 để giảm kích thước ảnh từ 32*32 -> 16*16 -> 8*8 -> 4*4 -> 2*2. Khi giảm kích thước thi 
depth tăng dan. Cuối cùng thì tensor shape 2*2*512 được reshape về vector 2048 và dùng 1 lớp 
fully connected chuyển từ 2048d về 1d. 


Loss function được sử dụng giống như bài trước về GAN. 


Tips 
Đây là một số tips để build model và train DCGAN 
* Dùng ReLU trong generator trừ output layer 
* Output layer trong generator dùng tanh (-1, 1) va scale anh input về (-1,1) sẽ cho kết quả tốt 
hơn dùng sigmoid va scale ảnh về (0, 1) hoặc để nguyên ảnh. 
* Sử dụng LeakyReLU trong discriminator 
* Thay thé max pooling bằng convolution với stride = 2 
e Sử dụng transposed convolution dé upsampling 
* Sử dung batch norm từ output layer trong generator và input layer trong discriminator 


21.3 
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Code 


Anh CIFAR-10 được scale về (-1, 1) để cùng scale với ảnh sinh ra bởi generator khi dùng tanh 
activation. 


def get_data(): 
(X_train, y_train), (X_test, y_test) = cifar10.load_data() 


X_train = X_train.astype(np.float32) 
X_test = X_test.astype(np.float32) 


X_train = 2*(X_train/255)-1 
X test = 2*(X_train/255)-1 


return X_train, X_test 


Ở những epoch đầu tiên thi generator chỉ sinh ra noise. 


Hình 21.9: Anh sinh ra bởi generator sau 10 epochs 


Tuy nhiên sau 150 epoch thi mạng đã học được thuộc tính của anh trong dữ liệu CIFAR-10 và có 
thể sinh ra được hình con chim, ô tô. 


Hình 21.10: Ảnh sinh ra bởi generator sau 150 epochs 
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from tqdm import tqdm_notebook 

import matplotlib 

import matplotlib.pylab as plt 

from math import ceil 

import numpy as np 

from keras.models import Sequential, Model 

from keras.layers import Input, ReLU, LeakyReLU, Dense 
from keras.layers.core import Activation, Reshape 

from keras.layers.normalization import BatchNormalization 
from keras.layers.convolutional import Conv2D, Conv2DTranspose 
from keras.layers.core import Flatten 

from keras.optimizers import SGD, Adam 

from keras.datasets import cifar10 

from keras.initializers import RandomNormal 


def build_generator(z_dim = 128, n_filter = 64): 


init = RandomNormal (stddev=0.02) 


Q Q 
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= Sequential () 


.add(Dense(2*2*n_filter*8, input_shape=(z_dim,), use_bias=True, kernel_initializer=i 


2*2*512 


.add (Reshape((2,2,n  filter*8))) 
.add(BatchNormalization()) 
.add(LeakyReLU(0.2)) 


4*4*256 


.add(Conv2DTranspose(n filter*4, kernel size-(5,5), strides=2, padding-'same', use b 
.add(BatchNormalization()) 
.add (LeakyReLU(0.2)) 


8*8*128 


.add(Conv2DTranspose(n filter*2, kernel size-(5,5), strides-2, padding-'same', use b 
.add(BatchNormalization()) 
.add(LeakyReLU(0. 2)) 


16*16*64 


.add(Conv2DTranspose(n filter, kernel size-(5,5), strides-2, padding-'same', use bia 
.add(BatchNormalization()) 
.add (LeakyReLU(0.2)) 


32*52x*8 
add(Conv2DTranspose(3, kernel_size=(5,5), strides=2, padding='same', use_bias=True, 


.add(BatchNormalization() ) 
.add(Activation('tanh')) 


print('Build Generator') 
print(G.summary()) 
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def 


def 


def 


return G 

build_discriminator (input_shape=(32,32,3), n_filter=64): 
init = RandomNormal (stddev=0.02) 

D = Sequential () 


# 16*16*64 


D.add(Conv2D(n_filter, input_shape=input_shape, kernel_size=(5,5), strides=2, padding 


D.add(LeakyReLU(0.2)) 
8*8*64 


.add(BatchNormalization()) 
.add(LeakyReLU(0.2)) 


4*4x64 


.add(BatchNormalization()) 
.add(LeakyReLU(0.2)) 


2*2*64 


.add(BatchNormalization()) 
.add(LeakyReLU(0.2)) 


D.add(Flatten()) 
D.add(Dense(1, kernel initializer-init)) 


D.add(Activation('sigmoid')) 


print('Build discriminator') 
print (D. summary ()) 


return D 


get_data(): 
(X_train, y_train), (X_test, y_test) = cifar10.load_data() 


X_train = X_train.astype(np.float32) 
X_test = X_test.astype(np.float32) 


X_train = 2*(X_train/255)-1 
X_test = 2*(X_train/255)-1 


return X_train, X_test 


plot_images(images, filename): 


# 
D.add(Conv2D(n_filter*2, kernel_size=(5,5), strides=2, padding='same', use_bias=True, 
D 
D 
# 
D.add(Conv2D(n filter*4, kernel_size=(5,5), strides=2, padding='same', use_bias=True, 
D 
D 


# 
D.add(Conv2D(n_filter*8, kernel_size=(5,5), strides=2, padding='same', use_bias=True, 
D 
D 
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def 


def 


h, 


w, c = images.shapel[1:] 


grid size = ceil(np.sqrt(images.shape[0])) 

images - (images * 1) / 2. * 255. 

images - images.astype(np.uint8) 

images = (images.reshape(grid size, grid size, h, w, c) 


.transpose(0, 2, 1, 3, 4) 
.reshape(grid size*h, grid size*w, c)) 


#plt. figure(figsize=(16, 16)) 


pl 
pl 
pl 


pl 
fi 
ax 
ax 
ax 
ax 
pl 
pl 
#p 


tr 


X_ 


t.imsave(filename, images) 
t.imshow(images) 
t.show() 


ot_losses(losses_d, losses_g, filename): 

g, axes = plt.subplots(1, 2, figsize=(8, 2)) 
es [0] .plot(1osses d) 

es[1].plot(losses gi 

es[0].set title("losses d") 

es[1].set title("losses g") 

t.tight layout() 

t.savefig(filename) 

tt.close() 


ain(n filter-64, z dim-100, lr d-2e-4, lr g-2e-4, epochs=300, batch_size=128, 
epoch, per checkpoint-1, n checkpoint images-36, verbose-10): 
train, = get data() 


image shape = X train[0].shape 


pr 
pl 
# 
G 
D 


# 
D 
D 
D. 
Z 
D_ 
# 


D_ 


# 
re 


int('Image shape 1), min val {}, max val {}'.format(image_shape, np.min(X_train[0]) 
ot_images(X_train[:n_checkpoint_images], 'real_image.png') 
Build model 


= build_generator(z_dim, n_filter) 
= build_discriminator(image_shape, n_filter) 


Loss for discriminator 


.compile(Adam(1r=lr_d, beta 1-0.5), loss='binary_crossentropy', metrics=['binary_acc 


D(G(X)) 

trainable = False 

= Input (shape=(z_dim, )) 

of G = Model(inputs-z, outputs-D(G(z))) 


Loss for generator 
of_G.compile(Adam(lr=1r_d, beta_1=0.5), loss='binary_crossentropy', metrics=['binar 


Labels for computing the losses 
al_labels = np.ones(shape=(batch_size, 1)) 


fake_labels = np.zeros(shape=(batch_size, 1)) 


lo 


sses_d, losses g = [], [] 
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# fix a z vector for training evaluation 
z_fixed = np.random.uniform(-1, 1, size=(n_checkpoint_images, z_dim)) 


for e in tqdm notebook(range(1, epochs+1)): 
n_steps = X_train.shape[0]//batch_size 
for i in range(n_steps): 
# Train discriminator 
D.trainable = True 
real images = X_train[i*batch_size: (i+1)*batch_size | 
loss_d_real = D.train on batch(x-real images, y=real_labels) [0] 


Z = np.random.uniform(-1, 1, size=(batch_size, z_dim)) 
fake_images = G.predict_on_batch(z) 
loss_d_fake = D.train_on_batch(x=fake_images, y=fake_labels) [0] 


loss_d = loss_d_real + loss_d_fake 
# Train generator 


D.trainable = False 
loss_g = D_of_G.train_on_batch(x=z, y=real_labels) [0] 


losses_d.append(loss_d) 
losses_g.append(loss_g) 


if i == 0 and e/verbose == 
print('Epoch {}'.format(e)) 
fake images = G.predict(z fixed) 
#print("\tPlotting images and losses") 
plot images(fake images, "Images1/fake_images_e_1).png".format(e)) 
Zplot losses(losses d, losses. g, "losses.png") 


train() 


21.4 Bài tập 
1. Dùng mạng GAN sinh ra ảnh mặt người trong bộ dữ liệu CelebA 
2. Tìm hiểu cách đánh giá mạng GAN? Lam sao để đánh giá được ảnh sinh ra chất lương có tốt 
không? ảnh sinh ra có đa dạng không?. 


22.1 


22. Conditional GAN (CGAN) 


Bài trước tôi giới thiệu về DCGAN, dùng deep convolutional network trong mô hình GAN. Tuy 
nhiên khi ta train GAN xong rồi dùng generator để sinh ảnh mới giống trong dataset tôi không kiểm 
soát được là ảnh sinh ra giống category nào trong dataset. Ví dụ như dùng GAN để sinh các chữ số 
trong bộ MNIST, thì khi train xong va dùng generator sinh ảnh thì tôi không biết được ảnh sinh ra 
sẽ là số mấy (0 -> 9). Bài toán hôm nay muốn kiểm soát được generator sinh ra ảnh theo 1 category 
nhất dinh. Ví dụ có thể chỉ định generator sinh ra só 1 chẳng hạn. Mô hình đấy goi là Conditional 
GAN (cGAN). 


Fashion-MNIST 


Dữ liệu Fashion-MNIST về quan áo, giày dép gồm 60000 anh training va 10000 ảnh test. Ảnh xám 
kính thước 28*28 thuộc 10 lớp khác nhau. 


T-shirt/top 
Trouser 
Pullover 

Dress 
Coat 
Sandal 
Shirt 
Sneaker 
Bag 
Ankle boot 
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Bai toán hôm nay sẽ dùng cGAN để sinh ra dữ liệu trong từng thé loại ở dữ liệu Fashion-MNIST 
như sinh ra các ảnh áo Shirt. Ví dụ dữ liệu Fashion-MNIST ở hình 22.1 


292 Chương 22. Conditional GAN (CGAN) 


Hình 22.1: Anh dữ liệu Fashion-MNIST 


22.2 Cáu trúc mang 


22.2.1 Generator 


Ở bài trước thi Generator sinh anh fake từ noise vector. Cái hay của random vector là có thé sample 
được nhiều giá trị khác nhau, thành ra khi train xong mang GAN thi có thé sinh được nhiều anh fake 
khác nhau. Tuy nhiên lại không thể kiểm soát xem anh sinh ra thuộc thể loại nào (áo, giày, dép,...). 


Bên cạnh noise vector z, tôi sẽ thêm vào y, 1 số từ (0 - 9), mỗi thể loại trong dif liệu Fashion-MNIST 
sẽ được encode về 1 số. tôi mong muốn là z với số y nào thì sẽ cho ra dữ liệu tương ứng thể loại đấy. 
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Hinh 22.2: Mô hinh Generator cGAN 


Input z là noise vector như bài trước, sau đấy được qua dense layer về kích thước 7*7*128 rồi 


22.2.2 
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reshape về dang 3D tensor kích thước 7x7x128 (y1) 
Input y là 1 số được đi qua embedding layer của keras, layer này giống như 1 dictionary map 
mỗi số thành một vector 50*1, sau đó được qua dense với output 49 node cuối cùng được reshape 


về 3D tensor kích thước 7x7x1 (y2) 


Sau đó yl và y2 được xếp chóng lên nhau thành tensor 3d kích thước 7*7*129, tiếp đi qua 
transposed convolution để tăng kích thước lén 14*14 và 28*28, cuối cùng cho ra output 28*28* 1. 


Discriminator 


Discriminator muc dich phan biét an that trong dataset va anh fake sinh ra bdi generator. 


Tương tự như ở trong generator bên cạnh ảnh, tôi sẽ thêm vào y, 1 số từ (0 - 9) tương ứng 
với thể loại trong dữ liệu Fashion-MNIST. 
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Hinh 22.3: Mô hình Discriminator CGAN 


Input y là 1 số được đi qua embedding layer của keras, layer này giống như 1 dictionary map mỗi số 
thành một vector 50*1, sau đó được qua dense với output 28*28 node cuối cùng được reshape về 
3D tensor kích thước 28x28xI (y1) 


Sau đó y1 và ảnh input được xếp chồng lên nhau thành tensor 3d kích thước 28*28*2, sau đó tensor 
di qua convolution với stride = 2 để giảm kích thước ảnh từ 28*28 -> 14*14 -> 7*7. Khi giảm kích 
thước thi depth tăng dần. Cuối cùng thi tensor shape 2*2*512 được reshape về vector 2048 và dùng 
1 lớp fully connected chuyển từ 2048d về 1d. 
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22.2.3 Loss function 


22.3 Code 
Sau khi train xong thì tôi có thể sinh ra ảnh theo từng thể loại trong Fashion-MNIST. 


from 
from 
from 
from 
from 
from 
from 
from 
from 


numpy 
numpy 

numpy 

numpy. 
numpy. 
keras. 
keras. 
keras. 
keras. 
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Hinh 22.4: Loss function cGAN 
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Hình 22.5: Ảnh sinh ra bởi CGAN 


import expand_dims 

import zeros 

import ones 

random import randn 

random import randint 
datasets.fashion_mnist import load_data 
optimizers import Adam 

models import Model 

layers import Input 
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from keras.layers import Dense 

from keras.layers import Reshape 

from keras.layers import Flatten 

from keras.layers import Conv2D 

from keras.layers import Conv2DTranspose 
from keras.layers import LeakyReLU 

from keras.layers import Dropout 

from keras.layers import Embedding 

from keras.layers import Concatenate 


def define discriminator(in shape-(28,28,1), n_classes=10): 
# label input 
in label = Input (shape=(1,)) 
# embedding for categorical input 
li = Embedding(n_classes, 50) (in_label) 
# scale up to image dimensions with linear activation 
n_nodes = in_shape[0] * in_shape[1] 
li = Dense (n_nodes) (li) 
# reshape to additional channel 
li = Reshape((in shape[0], in shape[1], 1))(1i) 
# image input 
in image = Input(shape-in shape) 
# concat label as a channel 
merge = Concatenate() ([in_image, 1i]) 
# downsample 
fe = Conv2D(64, (3,3), strides=(2,2), padding='same') (merge) 
fe = LeakyReLU(alpha=0.2) (fe) 
# downsample 
fe = Conv2D(128, (3,3), strides=(2,2), padding='same') (fe) 
fe = LeakyReLU(alpha=0.2) (fe) 
# flatten feature maps 
fe = Flatten() (fe) 
# dropout 
fe = Dropout (0.4) (fe) 
# output 
out_layer = Dense(1, activation='sigmoid') (fe) 
# define model 
model = Model([in image, in label], out layer) 
# compile model 
opt = Adam(1r-0.0002, beta_1=0.5) 
model .compile(loss='binary_crossentropy', optimizer-opt, metrics=['accuracy']) 
return model 


def define_generator(latent_dim, n_classes=10): 
# label input 
in label = Input (shape=(1,)) 
# embedding for categorical input 
li = Embedding(n classes, 50)(in label) 
# Linear multiplication 
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n_nodes = 7 * 7 

li = Dense (n_nodes) (li) 

# reshape to additional channel 
li = Reshape((7, 7, 1)) (li) 

# image generator input 

in lat = Input (shape=(latent_dim, )) 
# foundation for 7x7 image 
n_nodes = 128 * 7 * 7 

gen = Dense(n_nodes) (in_lat) 

gen = LeakyReLU(alpha=0. 2) (gen) 
gen = Reshape((7, 7, 128)) (gen) 

# merge image gen and label input 
merge = Concatenate()([gen, 1i]) 
# upsample to 14214 


gen = Conv2DTranspose(64, (4,4), strides=(2,2), padding='same') (merge) 


gen = LeakyReLU(alpha=0. 2) (gen) 
# upsample to 28128 


gen = Conv2DTranspose(32, (4,4), strides-(2,2), padding='same') (gen) 


gen = LeakyReLU(alpha=0. 2) (gen) 
# output 


out layer = Conv2D(1, (7,7), activation-'tanh', padding='same') (gen) 


# define model 
model = Model([in_lat, in_label], out_layer) 
return model 


def define_gan(g_model, d_model): 


# make weights in the discriminator not trainable 
d_model.trainable = False 

# get noise and label inputs from generator model 
gen_noise, gen_label = g_model.input 

# get image output from the generator model 
gen_output = g_model.output 


# connect image output and label input from generator as inputs to discriminator 


gan_output = d_model([gen_output, gen_label]) 


# define gan model as taking noise and label and outputting a classification 


model = Model([gen_noise, gen_label], gan_output) 

# compile model 

opt = Adam(lr=0.0002, beta_1=0.5) 

model .compile(loss='binary_crossentropy', optimizer-opt) 
return model 


def load_real_samples(): 


# load dataset 

(trainX, trainy), (_, _) = load_data() 
# expand to 3d, e.g. add channels 

X = expand_dims(trainX, axis=-1) 

# convert from ints to floats 

X = X.astype('float32') 

# scale from [0,255] to [-1,1] 
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X = (X - 127.5) / 127.5 
return [X, trainy] 


def generate_real_samples(dataset, n_samples): 
# split into images and labels 
images, labels = dataset 
# choose random instances 
ix = randint(0, images.shape[0], n_samples) 
# select images and labels 
X, labels = images[ix], labels[ix] 
# generate class labels 
y = ones((n_samples, 1)) 
return [X, labels], y 


def generate_latent_points(latent_dim, n_samples, n_classes=10): 
# generate points in the latent space 
x_input = randn(latent_dim * n_samples) 
# reshape into a batch of inputs for the network 
z_input = x input.reshape(n samples, latent dim) 
# generate labels 
labels = randint(0, n_classes, n_samples) 
return [z_input, labels] 


def generate_fake_samples(generator, latent_dim, n_samples): 
# generate points in latent space 
z_input, labels_input = generate_latent_points(latent_dim, n_samples) 
# predict outputs 
images = generator.predict([z_input, labels_input]) 
# create class labels 
y = zeros((n_samples, 1)) 
return [images, labels_input], y 


def train(g_model, d_model, gan_model, dataset, latent_dim, n_epochs=100, n_batch=128): 
bat per epo = int(dataset[0].shape[0] / n batch) 
half batch - int(n batch / 2) 
# manually enumerate epochs 
for i in range(n_epochs): 
# enumerate batches over the training set 
for j in range(bat_per_epo): 
# get randomly selected 'real' samples 
[X_real, labels_real], y_real = generate_real_samples(dataset, ha 
# update discriminator model weights 
d lossi, | = d model.train on batch([X real, labels real], y real 
# generate 'fake' examples 
[X fake, labels], y. fake = generate fake samples(g model, latent. 
# update discriminator model weights 
d_loss2, _ = d_model.train_on_batch([X_fake, labels], y_fake) 
# prepare points in latent space as input for the generator 
[z_input, labels_input] = generate_latent_points(latent_dim, n_ba 
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# create inverted labels for the fake samples 
y_gan = ones((n_batch, 1)) 
# update the generator via the discriminator's error 
g_loss = gan model.train on batch([z input, labels input], y gan) 
# summarize loss on this batch 
print('>⁄d, Ad/Ad, di-4.3f, d2=/.3f g=%.3f' % 
(i+1, j+1, bat per epo, d_loss1, d loss2, g_loss)) 
# save the generator model 
g_model.save('cgan_generator.h5') 


# size of the latent space 

latent_dim = 100 

# create the discriminator 

d_model = define_discriminator () 

# create the generator 

g_model = define_generator(latent_dim) 

# create the gan 

gan model = define gan(g model, d model) 
# load image data 

dataset = load_real_samples() 

# train model 

train(g_model, d_model, gan_model, dataset, latent_dim) 


22.4 Bài tập 
1. Sinh ra dữ liệu ở từng lớp trong bộ cifar-10. 
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